論文の概要: Can Revealed Preferences Clarify LLM Alignment and Steering?
- arxiv url: http://arxiv.org/abs/2605.08556v1
- Date: Fri, 08 May 2026 23:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.732762
- Title: Can Revealed Preferences Clarify LLM Alignment and Steering?
- Title(参考訳): LLMアライメントとステアリングの明確化は可能か?
- Authors: Khurram Yamin, Jingjing Tang, Eric Horvitz, Bryan Wilder,
- Abstract要約: LLMの観測した選択が最適化するインプリート嗜好を推定するための経験的パイプラインを提案する。
提案手法は,モデルが一貫したゴール指向の振る舞いをするかどうかの厳密な評価を可能にすることを示す。
- 参考スコア(独自算出の注目度): 23.175180848107093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly used to make or support high-stakes decisions under uncertainty, where alignment depends not only on factual accuracy but on how models weigh tradeoffs between different outcomes. We present an empirical pipeline for estimating the implied preferences that an LLM's observed choices optimize: we elicit the model's probability distribution over unknowns along with the choice it would make for the decision task and then fit a discrete choice model to recover the cost function that best rationalizes the model's decisions. We show how this revealed-preference description allows rigorous evaluation of whether models behave in a consistently goal-directed way, whether they can verbalize a description of their objectives which matches their revealed decision policy, and whether prompting can reliably steer those policies to implement a user-specified cost function. We apply this evaluation across four medical diagnosis domains and multiple frontier and open-source models. We find that while many models have a nontrivial degree of internal coherence, they also have significant weaknesses in faithfully reporting or adopting preferences in response to user direction.
- Abstract(参考訳): LLMは、事実の正確性だけでなく、異なる結果間のトレードオフをモデルがどのように重み付けしているかに依存する不確実性の下で、高い評価を下すか、あるいは支持するためにますます使われています。
我々は、LLMの観測した選択が最適化する暗黙の選好を推定するための経験的パイプラインを示す: モデルが未知数に対して確率分布を導出し、決定タスクに対する選択を導出し、選択した選択モデルを適合させて、モデルの決定を最も合理的にするためのコスト関数を回復する。
提案手法では, モデルが一貫した目標指向の行動を示すか, 決定ポリシーに適合する目的の記述を言語化できるか, ユーザ特定コスト関数を実装するためにこれらのポリシーを確実に活用できるかを, 厳密に評価する方法について述べる。
この評価を4つの診断領域と複数のフロンティアおよびオープンソースモデルに適用する。
多くのモデルは、非自明な内部コヒーレンスを持っているが、ユーザーの指示に応じて、誠実に報告したり、好みを取り入れたりする際には、重大な弱点がある。
関連論文リスト
- Act or Escalate? Evaluating Escalation Behavior in Automation with Language Models [0.0]
我々は不確実性の下での意思決定としてエスカレーションをモデル化する。
モデルがこれらのコストをトレードオフするために使用している暗黙のしきい値に、明らかな違いが見られます。
次に、この決定プロセスをターゲットにした介入を、さまざまなコスト比でテストします。
論文 参考訳(メタデータ) (2026-03-31T19:29:17Z) - Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity [45.92643973404507]
我々は,協調型モデルが,操作的プロンプト戦略のクラスであるpreference-Undermining Attacks (PUA) に対して脆弱であるかどうかを検討する。
驚くべきことに、より高度なモデルは、時にはマニピュティブなプロンプトに影響を受けやすい。
論文 参考訳(メタデータ) (2026-01-10T15:16:23Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - DecisionFlow: Advancing Large Language Model as Principled Decision Maker [49.088778182807395]
DecisionFlowは、モデルにアクション、属性、制約の構造化された表現を推論するように誘導する、新しい決定モデリングフレームワークである。
プロンプトから直接回答を予測するのではなく、DecisionFlowは意味論的に根拠のある決定空間を構築し、潜在ユーティリティ関数を推論する。
実験の結果,DecisionFlowの精度は,強いプロンプトベースラインよりも最大30%向上した。
論文 参考訳(メタデータ) (2025-05-27T16:23:53Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - An exact counterfactual-example-based approach to tree-ensemble models
interpretability [0.0]
高性能モデルは、決定を完全に理解するために必要な透明性を示さない。
多次元間隔の集まりの形で、決定領域の正確な幾何学的特徴付けを導出できる。
回帰問題に対する推論への適応も考えられている。
論文 参考訳(メタデータ) (2021-05-31T09:32:46Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。