論文の概要: Mind the Gap: How Elicitation Protocols Shape the Stated-Revealed Preference Gap in Language Models
- arxiv url: http://arxiv.org/abs/2601.21975v1
- Date: Thu, 29 Jan 2026 16:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.012252
- Title: Mind the Gap: How Elicitation Protocols Shape the Stated-Revealed Preference Gap in Language Models
- Title(参考訳): Mind the Gap: 言語モデルにおける参照ギャップの緩和プロトコルの形状
- Authors: Pranav Mahajan, Ihor Kendiukhov, Syed Hussain, Lydia Nottingham,
- Abstract要約: 提案手法は,24言語モデル間の記述された嗜好相関にどのように影響するかを考察する。
明らかにされた嗜好の棄権を認めると、高い中立性率のため、ほぼゼロまたは負の値に$$を誘導する。
明示された嗜好誘発における指示された嗜好を用いたシステムプロンプトステアリングは、AIRiskDilemmasにおけるSvR相関を確実に改善しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work identifies a stated-revealed (SvR) preference gap in language models (LMs): a mismatch between the values models endorse and the choices they make in context. Existing evaluations rely heavily on binary forced-choice prompting, which entangles genuine preferences with artifacts of the elicitation protocol. We systematically study how elicitation protocols affect SvR correlation across 24 LMs. Allowing neutrality and abstention during stated preference elicitation allows us to exclude weak signals, substantially improving Spearman's rank correlation ($ρ$) between volunteered stated preferences and forced-choice revealed preferences. However, further allowing abstention in revealed preferences drives $ρ$ to near-zero or negative values due to high neutrality rates. Finally, we find that system prompt steering using stated preferences during revealed preference elicitation does not reliably improve SvR correlation on AIRiskDilemmas. Together, our results show that SvR correlation is highly protocol-dependent and that preference elicitation requires methods that account for indeterminate preferences.
- Abstract(参考訳): 最近の研究は、言語モデル(LM)における記述された(SvR)選好ギャップを特定している。
既存の評価はバイナリ強制選択プロンプトに大きく依存している。
提案手法は,24 LM間のSvR相関にどう影響するかを系統的に検討した。
提案した選好の選好における中立性と棄権を認めることで、弱いシグナルを排除でき、志願した選好と強制選好の間のスピアマンのランク相関(ρ$)を大幅に改善できる。
しかし、明らかにされた嗜好の棄却は、高い中立性率のため、$ρ$をほぼゼロまたは負の値に誘導する。
最後に, 明示された選好誘発における指示された選好を用いたシステムステアリングは, AIRiskDilemmasにおけるSvR相関を確実に改善しないことがわかった。
この結果から,SvRの相関はプロトコル依存度が高いこと,不確定な選好を考慮に入れた方法が必要であることが示唆された。
関連論文リスト
- Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。