論文の概要: Evaluating Alignment of Behavioral Dispositions in LLMs
- arxiv url: http://arxiv.org/abs/2602.11328v1
- Date: Wed, 11 Feb 2026 19:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.518908
- Title: Evaluating Alignment of Behavioral Dispositions in LLMs
- Title(参考訳): LLMにおける挙動分布のアライメント評価
- Authors: Amir Taubenfeld, Zorik Gekhman, Lior Nezry, Omri Feldman, Natalie Harris, Shashir Reddy, Romina Stella, Ariel Goldstein, Marian Croak, Yossi Matias, Amir Feder,
- Abstract要約: 社会的文脈における反応を形作る行動配置に着目する。
LLMによって表現される配位が人間の配位とどのように密接に一致しているかを研究するための枠組みを導入する。
- 参考スコア(独自算出の注目度): 15.282965130762648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs integrate into our daily lives, understanding their behavior becomes essential. In this work, we focus on behavioral dispositions$-$the underlying tendencies that shape responses in social contexts$-$and introduce a framework to study how closely the dispositions expressed by LLMs align with those of humans. Our approach is grounded in established psychological questionnaires but adapts them for LLMs by transforming human self-report statements into Situational Judgment Tests (SJTs). These SJTs assess behavior by eliciting natural recommendations in realistic user-assistant scenarios. We generate 2,500 SJTs, each validated by three human annotators, and collect preferred actions from 10 annotators per SJT, from a large pool of 550 participants. In a comprehensive study involving 25 LLMs, we find that models often do not reflect the distribution of human preferences: (1) in scenarios with low human consensus, LLMs consistently exhibit overconfidence in a single response; (2) when human consensus is high, smaller models deviate significantly, and even some frontier models do not reflect the consensus in 15-20% of cases; (3) traits can exhibit cross-LLM patterns, e.g., LLMs may encourage emotion expression in contexts where human consensus favors composure. Lastly, mapping psychometric statements directly to behavioral scenarios presents a unique opportunity to evaluate the predictive validity of self-reports, revealing considerable gaps between LLMs' stated values and their revealed behavior.
- Abstract(参考訳): LLMが私たちの日常生活に統合されるにつれて、その行動を理解することが不可欠になる。
本研究は,社会的文脈における応答を形作る行動配置$-$と,LLMが表現する行動配置が人間の行動といかに密接に一致しているかを研究するための枠組みを導入する。
我々のアプローチは、確立された心理質問紙に基礎を置いているが、人間の自己申告文を状況判断テスト(SJT)に変換することによって、LSMに適応する。
これらのSJTは、現実的なユーザ支援シナリオにおいて、自然なレコメンデーションを引き出すことによって行動を評価する。
我々は2500個のSJTを生成し、それぞれ3人のアノテータによって検証され、SJT当たり10個のアノテータから550人の参加者の大規模なプールから好ましいアクションを収集する。
25のLLMを含む包括的研究において、モデルはしばしば人間の嗜好の分布を反映しない:(1) 人間のコンセンサスが低いシナリオでは、LLMは単一応答において常に過剰な自信を示す; (2) 人間のコンセンサスが高い場合、より小さいモデルでは著しく減少し、また、一部のフロンティアモデルでさえ15~20%のケースではコンセンサスを反映しない; (3) 特性はクロスLLMパターン、例えばLLMは人間のコンセンサスがコンポージャーを好む状況における感情表現を促進する。
最後に、心理測定文を直接行動シナリオにマッピングすると、自己報告の予測妥当性を評価するユニークな機会が得られ、LSMの表現された値と明らかにされた行動の間にかなりのギャップが明らかになる。
関連論文リスト
- Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents [0.48439699124726004]
大規模言語モデル(LLM)は、よく知られたバイアスを再現することが示されている。
我々は,3つの確立された意思決定シナリオを会話環境に適応させ,人間の実験を行った。
人間の行動をどのように整合させるかという点において,モデル間に顕著な違いが認められた。
論文 参考訳(メタデータ) (2026-02-05T12:33:05Z) - Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。
本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。
以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T06:08:41Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles [39.025684190110276]
社会的推論ゲームは、個別の推論スタイルを評価するための自然なテストベッドを提供する。
我々は,LLMがパーソナライズされた推論スタイルをキャプチャして適用できるかどうかを評価するための認知基盤評価フレームワークであるInMindを紹介する。
ケーススタディとして、InMindをゲームAvalonに適用し、11の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-08-22T04:04:00Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。