論文の概要: Alignment Makes Language Models Normative, Not Descriptive
- arxiv url: http://arxiv.org/abs/2603.17218v1
- Date: Tue, 17 Mar 2026 23:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.447333
- Title: Alignment Makes Language Models Normative, Not Descriptive
- Title(参考訳): アライメントは、言語モデルを規範的、記述的でないものにする
- Authors: Eilam Shapira, Moshe Tennenholtz, Roi Reichart,
- Abstract要約: トレーニング後のアライメントは、人間の嗜好信号と一致するように言語モデルを最適化するが、この目的は観察された人間の行動のモデリングと等価ではない。
マルチラウンド戦略ゲームにおいて、120のベースアライメントモデルペアを1万以上の人間による決定に対して比較する。
- 参考スコア(独自算出の注目度): 20.47884338846419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.
- Abstract(参考訳): トレーニング後のアライメントは、人間の嗜好信号にマッチするように言語モデルを最適化するが、この目的は観察された人間の行動のモデリングと等価ではない。
マルチラウンド戦略ゲーム(交渉、説得、交渉、繰り返し行列ゲーム)において、120のベースアラインなモデルペアを1万以上のリアルな人間的決定に対して比較する。
これらの設定では、ベースモデルは、人間の選択を10:1近く予測し、モデルファミリ、迅速な定式化、ゲーム構成よりも優れている。
しかし、このパターンは、人間の振る舞いが規範的な予測に従う傾向にある設定で逆転する: 整列モデルは、テスト対象の12種類の教科書ゲームと、非ストラテジックな宝くじ選択 – および、インタラクション履歴が発展する前に、ラウンド1のマルチラウンドゲーム自体においても – で支配される。
この境界条件パターンは、アライメントが規範的バイアスを引き起こすことを示唆している。これは、人間の行動が規範的ソリューションによって比較的よく捉えられているときの予測を改善するが、相互性、報復、歴史に依存した適応といった記述的ダイナミクスによって行動が形作られるマルチラウンド戦略環境での予測を損なう。
これらの結果から, 人体用モデルの最適化と, 人体行動のプロキシとしての利用との間には, 根本的なトレードオフがあることが示唆された。
関連論文リスト
- NextQuill: Causal Preference Modeling for Enhancing LLM Personalization [82.15961484963256]
因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。
この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。
複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-03T02:08:55Z) - Learning a Canonical Basis of Human Preferences from Binary Ratings [28.975782992900065]
本稿では、そのようなデータセットに符号化された嗜好を理解し、共通の人間の嗜好を特定することに焦点を移す。
21の選好カテゴリーの小さなサブセットは、個人間での選好の変化の89%を捉えていることがわかった。
この小さな嗜好のセットは、人間の嗜好の標準的基礎と類似しており、心理学や顔認識の研究における人間の変動を特徴づける確立された発見と類似している。
論文 参考訳(メタデータ) (2025-03-31T14:35:48Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
我々はHyPERを紹介した。HyPERは、人間または言語モデル(LM)にアノテーションを付与するハイブリッド推論ルータである。
その結果,HyPERを用いた人工選好と直接選好の混合は,RewardBenchでは7-13%しか使用せず,RM性能が向上していることがわかった。
また、HyPERの機能を分析した結果、安全上の懸念や複雑さが人間のフィードバックから最も恩恵を受けていることがわかりました。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Prediction-Powered Ranking of Large Language Models [13.25325920774249]
大規模な言語モデルは、しばしば人間の好みに合わせてランク付けされる。
このギャップを埋める統計フレームワークを開発します。
ペアワイズ比較のみを用いて構築されたランクセットは、人間のペアワイズ選好と(分布の)矛盾することが多いことを示す。
論文 参考訳(メタデータ) (2024-02-27T19:00:01Z) - Online Adaptation of Neural Network Models by Modified Extended Kalman
Filter for Customizable and Transferable Driving Behavior Prediction [3.878105750489657]
人間ドライバーの行動予測は、自動運転車の効率的かつ安全な展開に不可欠である。
本稿では,運転行動予測タスクに$tau$-step modified Extended Kalman Filterパラメータ適応アルゴリズムを適用する。
観察された軌跡のフィードバックにより,異なる被験者やシナリオ間での運転行動予測の性能向上にアルゴリズムを適用した。
論文 参考訳(メタデータ) (2021-12-09T05:39:21Z) - Combining Human Predictions with Model Probabilities via Confusion
Matrices and Calibration [11.75395256889808]
本研究では,モデルの確率的出力と人間のクラスレベルの出力を結合するアルゴリズムの開発を行う。
理論的には, 組み合わせモデルの精度は, 個々の人やモデルの精度だけでなく, モデルの信頼性にも左右されることが示されている。
論文 参考訳(メタデータ) (2021-09-29T17:43:15Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。