論文の概要: Modeling Subjectivity in Cognitive Appraisal with Language Models
- arxiv url: http://arxiv.org/abs/2503.11381v1
- Date: Fri, 14 Mar 2025 13:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:54.034497
- Title: Modeling Subjectivity in Cognitive Appraisal with Language Models
- Title(参考訳): 言語モデルを用いた認知的評価における主観性のモデル化
- Authors: Yuxiang Zhou, Hainiu Xu, Desmond C. Ong, Petr Slovak, Yulan He,
- Abstract要約: 様々なシナリオに対して包括的な実験と分析を行うことで、言語モデルがどのように主観性を活用できるかを示す。
その結果,人格特性と人口統計情報は主観性を測定する上で重要であることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.846297851557477
- License:
- Abstract: As the utilization of language models in interdisciplinary, human-centered studies grow, the expectation of model capabilities continues to evolve. Beyond excelling at conventional tasks, models are recently expected to perform well on user-centric measurements involving confidence and human (dis)agreement -- factors that reflect subjective preferences. While modeling of subjectivity plays an essential role in cognitive science and has been extensively studied, it remains under-explored within the NLP community. In light of this gap, we explore how language models can harness subjectivity by conducting comprehensive experiments and analysis across various scenarios using both fine-tuned models and prompt-based large language models (LLMs). Our quantitative and qualitative experimental results indicate that existing post-hoc calibration approaches often fail to produce satisfactory results. However, our findings reveal that personality traits and demographical information are critical for measuring subjectivity. Furthermore, our in-depth analysis offers valuable insights for future research and development in the interdisciplinary studies of NLP and cognitive science.
- Abstract(参考訳): 学際的、人間中心の研究における言語モデルの利用が増加するにつれ、モデル能力の期待は発展し続けている。
従来のタスクに長けているだけでなく、モデルは最近、信頼と人間(認識)を含むユーザ中心の計測 -- 主観的嗜好を反映した要因 -- において、うまく機能することが期待されている。
主観性のモデリングは認知科学において重要な役割を担い、広く研究されてきたが、NLPコミュニティ内では未調査のままである。
このギャップを鑑みて、我々は、細調整されたモデルとプロンプトベースの大規模言語モデル(LLM)の両方を用いて、様々なシナリオにわたる包括的な実験と分析を行うことにより、言語モデルが主観性をどのように活用できるかを考察する。
定量的および定性的な実験結果から,既存校正法では良好な結果が得られなかったことが示唆された。
しかし,本研究の結果から,人格特性や人口統計情報は主観性を測定する上で重要であることが明らかとなった。
さらに,我々はNLPと認知科学の学際研究において,今後の研究・開発に有用な知見を提供する。
関連論文リスト
- The potential -- and the pitfalls -- of using pre-trained language models as cognitive science theories [2.6549754445378344]
PLMを認知科学理論として活用する上での課題について論じる。
我々は,PLM性能の指標を人的性能の尺度にマッピングするために研究者が用いた仮定をレビューする。
PLMを認知・認知発達の信頼できる指標として用いるための基準を列挙する。
論文 参考訳(メタデータ) (2025-01-22T05:24:23Z) - Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。
本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。
LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文 参考訳(メタデータ) (2024-11-18T21:28:00Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - Using Artificial Populations to Study Psychological Phenomena in Neural
Models [0.0]
言語モデルにおける認知行動の調査は、意味のある結果を得るために適切な集団で行う必要がある。
我々は、実験集団を効率的に構築するために、新しいアプローチにおける不確実性推定の作業を活用する。
本研究では,不確実性推定文献の理論的根拠と,言語モデルに関する現在の認知作業からのモチベーションを提供する。
論文 参考訳(メタデータ) (2023-08-15T20:47:51Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。