論文の概要: When Do LLM Preferences Predict Downstream Behavior?
- arxiv url: http://arxiv.org/abs/2602.18971v1
- Date: Sat, 21 Feb 2026 22:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.425757
- Title: When Do LLM Preferences Predict Downstream Behavior?
- Title(参考訳): LLMは下流行動を予測するのか?
- Authors: Katarina Slama, Alexandra Souly, Dishank Bansal, Henry Davidson, Christopher Summerfield, Lennart Luettgau,
- Abstract要約: 我々は、5つのフロンティアLSMにおいて、記述された嗜好が下流行動を予測するかどうかを測定する。
5つのモデルがすべて、好みに沿った寄付のアドバイスを与えているのが分かります。
ここで観察するすべての選好関連行動は、選好に作用する指示なしで現れる。
- 参考スコア(独自算出の注目度): 37.78583963375657
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Preference-driven behavior in LLMs may be a necessary precondition for AI misalignment such as sandbagging: models cannot strategically pursue misaligned goals unless their behavior is influenced by their preferences. Yet prior work has typically prompted models explicitly to act in specific ways, leaving unclear whether observed behaviors reflect instruction-following capabilities vs underlying model preferences. Here we test whether this precondition for misalignment is present. Using entity preferences as a behavioral probe, we measure whether stated preferences predict downstream behavior in five frontier LLMs across three domains: donation advice, refusal behavior, and task performance. Conceptually replicating prior work, we first confirm that all five models show highly consistent preferences across two independent measurement methods. We then test behavioral consequences in a simulated user environment. We find that all five models give preference-aligned donation advice. All five models also show preference-correlated refusal patterns when asked to recommend donations, refusing more often for less-preferred entities. All preference-related behaviors that we observe here emerge without instructions to act on preferences. Results for task performance are mixed: on a question-answering benchmark (BoolQ), two models show small but significant accuracy differences favoring preferred entities; one model shows the opposite pattern; and two models show no significant relationship. On complex agentic tasks, we find no evidence of preference-driven performance differences. While LLMs have consistent preferences that reliably predict advice-giving behavior, these preferences do not consistently translate into downstream task performance.
- Abstract(参考訳): LLMにおける嗜好駆動の行動は、サンドバッグのようなAIのミスアライメントに必要な前提条件となり得る:モデルは彼らの行動が彼らの好みに影響されない限り、間違った目標を戦略的に追求することはできない。
しかし、以前の作業は、通常、モデルが特定の方法で行動するように明示的に促し、観察された振る舞いが命令追従能力と基礎となるモデルの嗜好を反映するかどうかをはっきりしないままにしている。
ここでは、この誤認の前提条件が存在するかどうかを検証する。
行動プローブとしてエンティティの選好を用いて,提案した選好が,寄付アドバイス,拒絶行動,タスクパフォーマンスの3領域にわたる5つのフロンティアLCMにおいて下流行動を予測するか否かを測定する。
概念的には先行作業の複製を行うが、まず5つのモデルが2つの独立した測定方法にまたがって高度に一貫した嗜好を示すことを確認する。
次に、シミュレーションされたユーザ環境における行動結果をテストする。
5つのモデルがすべて、好みに沿った寄付のアドバイスを与えているのが分かります。
5つのモデルはすべて、より推奨されていないエンティティに対して、より頻繁に拒否する、寄付を推奨するときに、嗜好に関連付けられた拒絶パターンも示している。
ここで観察するすべての選好関連行動は、選好に作用する指示なしで現れる。
質問応答ベンチマーク(BoolQ)では、2つのモデルでは、好みのエンティティに有利な小さな精度差が示され、1つのモデルでは反対のパターンが示され、2つのモデルでは有意な相関は示されていない。
複雑なエージェントタスクでは、好みによる性能差の証拠は見つからない。
LLMには、アドバイスに感謝する振る舞いを確実に予測する一貫した選好があるが、これらの選好は、ダウンストリームタスクのパフォーマンスに一貫して変換されない。
関連論文リスト
- Emergently Misaligned Language Models Show Behavioral Self-Awareness That Shifts With Subsequent Realignment [0.3823356975862005]
GPT-4.1モデルは、創発的ミスアライメントを誘導し、逆転させることで知られているデータセットを逐次的に微調整する。
以上の結果から,不整合モデルがベースモデルや再整合モデルに比べて有意に有害であることが示唆された。
以上の結果から,行動自己認識はモデルの実際のアライメント状態を追跡することが示唆された。
論文 参考訳(メタデータ) (2026-02-16T14:29:46Z) - Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。
モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。
実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-10-30T08:41:13Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Robust Recommendation with Implicit Feedback via Eliminating the Effects
of Unexpected Behaviors [5.419520515385743]
本稿では,予期せぬ行動の影響を排除するために,MPM(Multi-Preferences Model)を提案する。
映画の2つのデータセットとe-retailingについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-21T07:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。