論文の概要: Subliminal Signals in Preference Labels
- arxiv url: http://arxiv.org/abs/2603.01204v1
- Date: Sun, 01 Mar 2026 17:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.565161
- Title: Subliminal Signals in Preference Labels
- Title(参考訳): 選好ラベルにおけるサブリミナル信号
- Authors: Isotta Magistrali, Frédéric Berdoz, Sam Dauncey, Roger Wattenhofer,
- Abstract要約: 好みラベルは隠蔽通信チャネルとして機能することを示す。
中立な学生モデルが意味的に偏見のない完成物を生成しても、偏見のある裁判官は優先課題を通じて意図しない行動特性を伝達できることを示す。
- 参考スコア(独自算出の注目度): 29.981556395184285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems approach superhuman capabilities, scalable oversight increasingly relies on LLM-as-a-judge frameworks where models evaluate and guide each other's training. A core assumption is that binary preference labels provide only semantic supervision about response quality. We challenge this assumption by demonstrating that preference labels can function as a covert communication channel. We show that even when a neutral student model generates semantically unbiased completions, a biased judge can transmit unintended behavioral traits through preference assignments, which even strengthen across iterative alignment rounds. Our findings suggest that robust oversight in superalignment settings requires mechanisms that can detect and mitigate subliminal preference transmission, particularly when judges may pursue unintended objectives.
- Abstract(参考訳): AIシステムが超人的能力に近づくにつれ、スケーラブルな監視はLLM-as-a-judgeフレームワークに依存している。
中心となる前提は、バイナリの選好ラベルは応答品質に関するセマンティックな監視のみを提供する、ということである。
我々は、好みラベルが秘密の通信チャネルとして機能できることを実証することによって、この仮定に挑戦する。
中立な学生モデルが意味的に偏見のない完成物を生成しても、偏見のある裁判官は優先課題を通じて意図しない行動特性を伝達でき、反復的なアライメントラウンドをまたいでも強化できることを示す。
以上の結果から,過配位設定における頑健な監視には,特に意図しない目的を追求する場合に,サブリミナルな選好伝達を検出・緩和する機構が必要であることが示唆された。
関連論文リスト
- Optimizing In-Context Demonstrations for LLM-based Automated Grading [31.353360036776976]
GUIDE(Grading Using Iteratively Designed Exemplars)は、経験的選択と改善を境界中心の最適化問題として再設計するフレームワークである。
物理, 化学, 教育的内容知識の実験において, GUIDE は標準的検索基準を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:52:38Z) - Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges [39.6038287387348]
LLMに基づく審査員の行動は自然なルーリックによってガイドされ、ベンチマークで検証される。
我々は、このワークフローにおいて、事前に認識されていない脆弱性を識別し、このワークフローは、Preference Drift (RIPD) という用語で表現する。
我々は、この脆弱性を選好攻撃によって悪用できることを示し、そこでは、ベンチマーク準拠者が、固定された人間またはターゲットドメインの信頼された参照から、ステア判断を編集する。
論文 参考訳(メタデータ) (2026-02-14T03:19:14Z) - Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。