論文の概要: Truthful AI Advisors: A Pre-Specified Benchmark for Large Language Model Honesty Under Preference Misalignment
- arxiv url: http://arxiv.org/abs/2606.01456v1
- Date: Sun, 31 May 2026 21:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.712155
- Title: Truthful AI Advisors: A Pre-Specified Benchmark for Large Language Model Honesty Under Preference Misalignment
- Title(参考訳): 真に満ちたAIアドバイザ - 優先順位ミスによる大規模言語モデルの正当性ベンチマーク
- Authors: Hamidreza Hasani Balyani, Seyed Pouyan Mousavi Davoudi, Alireza Amiri-Margavi, Amin Gholami Davodi, Arshia Gharagozlou,
- Abstract要約: 大規模言語モデルは、ユーザの目的が一致していないアドバイザとして、ますます多くデプロイされる。
我々は、標準のクローフォード・ソベルの安価なトークモデルを、好みのミスアライメントの下での誠実さのベンチマークに変換する。
最も非形式的な平衡に対して4つのオーバーリベラルが1.8から4.2倍になる。
- 参考スコア(独自算出の注目度): 0.8699280339422538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as advisors whose objective is not aligned with the user's: recommenders optimize for engagement, sales assistants for purchases, negotiation agents for concessions. Whether such advisors stay truthful when honesty conflicts with their own payoff is a core alignment-evaluation question. We turn the canonical Crawford-Sobel cheap-talk model into a pre-specified benchmark for LLM honesty under preference misalignment. Cheap-talk theory predicts neither full revelation nor silence but coarse monotone partitions, with fewer informative intervals as preference conflict grows. A sender observes a state omega in [0,1], wants the receiver's action near omega+b, and sends one costless message to a receiver whose ideal action is omega. The design uses 5 bias levels, 3 prompt frames, a fixed low-temperature setting, and 200 states per cell: 12,000 sender calls. For the positive-bias grid b in {0.01,0.04,0.08,0.12} the exact most-informative partition sizes are 7,4,3,2, with oracle normalized mutual information 0.5294, 0.3268, 0.2205, 0.1829. Running the full design on four instruction-tuned models (GPT-4o, Claude Sonnet 4.5, Gemini 2.5 Flash-Lite, Llama-3.3-70B), we find all four over-reveal relative to the most-informative equilibrium by 1.8 to 4.2x: normalized mutual information stays at 0.78-0.94 where the oracle prescribes 0.18-0.53. Informativeness declines with bias as predicted but never approaches the strategic optimum; rather than coarse partitions, models show near-full revelation with a constant upward offset tracking their bias (linear exaggeration). Payoff-maximizing versus honesty framing has negligible effect. A decoder ablation shows the finding is recoverable only when the receiver reads the sender's stated number: an embedding-only decoder mis-reads the same data as near-babbling.
- Abstract(参考訳): 大規模言語モデルは、ユーザの目標と一致していないアドバイザとして、エンゲージメントの最適化、購入のためのセールスアシスタント、譲歩のための交渉エージェントとして、ますます多くデプロイされている。
誠実さが彼らの報酬と矛盾する場合、そうしたアドバイザーが真実を守り続けるかどうかは、コアアライメント・アライメント・評価の問題である。
我々は、標準のクローフォード・ソベルの安価なトークモデルを、好みのミスアライメントの下で、LLMの誠実さを事前に規定したベンチマークに変換する。
チープトーク理論は、完全な啓示も沈黙も予測しないが、粗い単調な分割を予測し、嗜好の対立が増大するにつれて情報的間隔が減る。
送信側は[0,1]で状態オメガを観察し、オメガ+b付近で受信側のアクションを希望し、理想的なアクションがオメガである受信側に1つのコストレスメッセージを送信する。
設計には5つのバイアスレベル、3つのプロンプトフレーム、固定された低温設定、セルあたり200状態:12,000の送信者呼び出しが使用されている。
0.01,0.04,0.08,0.12} の正バイアス格子 b に対して、最も正確な最も非形式的な分割サイズは7,4,3,2であり、オラクル正規化相互情報 0.5294, 0.3268, 0.2205, 0.1829 である。
4つの命令調整モデル(GPT-4o, Claude Sonnet 4.5, Gemini 2.5 Flash-Lite, Llama-3.3-70B)の完全な設計を実行すると、最も非形式的な平衡値に対して1.8から4.2倍の4つのオーバーリベラルが見つかった。
不定形性は予測されるようにバイアスとともに低下するが、戦略的最適に近づくことはない。粗い分割よりも、モデルではバイアスを常に上向きのオフセットで追跡する(線形の誇張)。
支払い最大化と正直なフレーミングは無視できる効果がある。
デコーダアブレーション(decoder ablation)は、受信者が送信者の記載した番号を読み取った場合にのみ、発見が回復可能であることを示す。
関連論文リスト
- Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit [0.0]
モデルが推奨するブランドの状況変化がどれほど強く影響するかを監査します。
監査サンプル2,000は、10のペルソナ x 8 の設計空間上で実行され、x 3 モデル構成 x N=10 のレポジトリがプロンプトされる。
AIブランドの認識のあらゆる測定は、クエリを提供する購入者ペルソナに条件を定めなければならない。
論文 参考訳(メタデータ) (2026-05-28T16:43:38Z) - Correcting Selection Bias in Sparse User Feedback for Large Language Model Quality Estimation: A Multi-Agent Hierarchical Bayesian Approach [0.9558392439655014]
本研究では, 個別の相互作用に対して, 地絡ラベルを必要としない3次元階層型ベイズパイプラインを提案する。
フィードバックチャネル(典型的には正のフィードバック率と負のフィードバック比)の軽度先行は、バイアス比が一掃されるにつれて階層的インフォームドは4-13 pp of $Qstar$ に留まる。
チャネル側の先行がなければ、すべての弱いプライオリティは、22-33 pp.で$Qstar$を逃す。
論文 参考訳(メタデータ) (2026-05-12T14:22:06Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment [53.72927532626824]
わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
論文 参考訳(メタデータ) (2026-04-20T00:57:31Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。