論文の概要: Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences?
- arxiv url: http://arxiv.org/abs/2506.00751v1
- Date: Sat, 31 May 2025 23:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.569923
- Title: Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences?
- Title(参考訳): アライメント再考: 大規模言語モデルは、ステートドおよびRevealed Preferenceに一貫性があるか?
- Authors: Zhuojun Gu, Quan Wang, Shuchu Han,
- Abstract要約: 批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。
この研究は正式に定義され、この選好偏差を測定する方法を提案する。
我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
- 参考スコア(独自算出の注目度): 5.542420010310746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) highlight the need to align their behaviors with human values. A critical, yet understudied, issue is the potential divergence between an LLM's stated preferences (its reported alignment with general principles) and its revealed preferences (inferred from decisions in contextualized scenarios). Such deviations raise fundamental concerns for the interpretability, trustworthiness, reasoning transparency, and ethical deployment of LLMs, particularly in high-stakes applications. This work formally defines and proposes a method to measure this preference deviation. We investigate how LLMs may activate different guiding principles in specific contexts, leading to choices that diverge from previously stated general principles. Our approach involves crafting a rich dataset of well-designed prompts as a series of forced binary choices and presenting them to LLMs. We compare LLM responses to general principle prompts stated preference with LLM responses to contextualized prompts revealed preference, using metrics like KL divergence to quantify the deviation. We repeat the analysis across different categories of preferences and on four mainstream LLMs and find that a minor change in prompt format can often pivot the preferred choice regardless of the preference categories and LLMs in the test. This prevalent phenomenon highlights the lack of understanding and control of the LLM decision-making competence. Our study will be crucial for integrating LLMs into services, especially those that interact directly with humans, where morality, fairness, and social responsibilities are crucial dimensions. Furthermore, identifying or being aware of such deviation will be critically important as LLMs are increasingly envisioned for autonomous agentic tasks where continuous human evaluation of all LLMs' intermediary decision-making steps is impossible.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、その振る舞いを人間の価値と整合させる必要性を強調している。
批判的だが、未検討の問題は、LCMの明細書(一般的な原則と一致していると報告されている)と明らかな明細書(文脈化されたシナリオにおける決定から推測される)との間の潜在的な相違である。
このような逸脱は、特に高度な応用において、解釈可能性、信頼性、透明性の推論、LLMの倫理的展開に対する根本的な懸念を提起する。
この研究は正式に定義され、この選好偏差を測定する方法を提案する。
我々は, LLMが特定の文脈において異なる指針原理を活性化しうるかを検討する。
我々のアプローチでは、よく設計されたプロンプトの豊富なデータセットを、一連の強制的なバイナリ選択として作成し、LSMに提示する。
我々は,LLM応答を一般原理に比較し,LLM応答とLLM応答と文脈的プロンプトとを比較し,KL発散などの指標を用いて偏差の定量化を行った。
選好カテゴリや4つの主要なLCMに対して分析を繰り返し、プロンプトフォーマットの微妙な変更が、選好カテゴリやLLMに関わらず、しばしば好まれる選択をピボットすることを発見した。
この現象は、LLM意思決定能力の理解と制御の欠如を浮き彫りにしている。
我々の研究は、LLMをサービス、特に道徳、公正、社会的責任が重要な要素である人間と直接対話するサービスに統合するために不可欠である。
さらに、全てのLSMの中間的意思決定ステップの連続的評価が不可能な自律的なエージェントタスクにおいて、LSMがますます想定されるため、そのような逸脱を識別または認識することが重要となる。
関連論文リスト
- Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。
我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。