論文の概要: Knowledge Divergence and the Value of Debate for Scalable Oversight
- arxiv url: http://arxiv.org/abs/2603.05293v1
- Date: Thu, 05 Mar 2026 15:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.299485
- Title: Knowledge Divergence and the Value of Debate for Scalable Oversight
- Title(参考訳): スケーラブルな監視のための知識の多様性と議論の価値
- Authors: Robin Young,
- Abstract要約: AIフィードバックからの議論と強化学習は、高度なAIシステムのスケーラブルな監視方法として提案されている。
議論モデル間の知識の相違の幾何学を通して、議論の価値をパラメータ化することでこれを解析する。
議論とRLAIFの間の最初の公式な関係は、敵の監視プロトコルが正当化されたときの理解のための幾何学的基礎である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI safety via debate and reinforcement learning from AI feedback (RLAIF) are both proposed methods for scalable oversight of advanced AI systems, yet no formal framework relates them or characterizes when debate offers an advantage. We analyze this by parameterizing debate's value through the geometry of knowledge divergence between debating models. Using principal angles between models' representation subspaces, we prove that the debate advantage admits an exact closed form. When models share identical training corpora, debate reduces to RLAIF-like where a single-agent method recovers the same optimum. When models possess divergent knowledge, debate advantage scales with a phase transition from quadratic regime (debate offers negligible benefit) to linear regime (debate is essential). We classify three regimes of knowledge divergence (shared, one-sided, and compositional) and provide existence results showing that debate can achieve outcomes inaccessible to either model alone, alongside a negative result showing that sufficiently strong adversarial incentives cause coordination failure in the compositional regime, with a sharp threshold separating effective from ineffective debate. We offer the first formal connection between debate and RLAIF, a geometric foundation for understanding when adversarial oversight protocols are justified, and connection to the problem of eliciting latent knowledge across models with complementary information.
- Abstract(参考訳): 議論によるAI安全性とAIフィードバックからの強化学習(RLAIF)はどちらも、高度なAIシステムのスケーラブルな監視方法として提案されている。
議論モデル間の知識の相違の幾何学を通して、議論の価値をパラメータ化することでこれを解析する。
モデルの表現部分空間間の主角を用いて、議論の優位性が正確な閉形式を持つことを証明する。
モデルが同一のトレーニングコーパスを共有すると、単一のエージェントメソッドが同じ最適化を回復するRLAIFのように議論が減る。
モデルが異なる知識を持つ場合、議論の優位性は二次的体制(議論は無視可能な利益をもたらす)から線形的体制(議論は不可欠である)への相転移を伴う。
我々は、知識の分散(共有、一方的、構成的)の3つの体制を分類し、議論がどちらのモデルにもアクセス不可能な結果をもたらすことを示す存在結果と、十分な強い敵対的インセンティブが構成体制における協調の失敗を引き起こすことを示すネガティブな結果とを、非効果的な議論から効果的に分離した鋭いしきい値を示す。
我々は、議論とRLAIFの間の最初の公式な関係、敵の監視プロトコルが正当化されたときの理解のための幾何学的基礎、および補的情報を持つモデル間で潜伏知識を抽出する問題の関連を提供する。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Single LLM Debate, MoLaCE: Mixture of Latent Concept Experts Against Confirmation Bias [24.182306712604966]
大規模言語モデル(LLM)は入力確認バイアスに対して非常に脆弱である。
MoLaCEは軽量な推論時間フレームワークで、アクティベーション強度の異なる専門家を混在させることで、確認バイアスに対処する。
検証バイアスを一貫して低減し、堅牢性を向上し、マルチエージェントの議論を上回ることを実証的に示す。
論文 参考訳(メタデータ) (2025-12-29T14:52:34Z) - Latent Debate: A Surrogate Framework for Interpreting LLM Thinking [26.20998021856433]
暗黙的な内部議論のレンズを通してモデル予測を解釈する新しいフレームワークである潜在討論を紹介する。
提案手法は,従来のLSMと高度に一貫した予測を持つ忠実な構造的サロゲートモデルであることを示す。
さらに分析すると、幻覚と議論パターンの間に強い相関関係があることが示され、例えば、中間層における潜伏した議論の度合いは、幻覚のリスクが高いことが示される。
論文 参考訳(メタデータ) (2025-12-01T17:27:31Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Peacemaker or Troublemaker: How Sycophancy Shapes Multi-Agent Debate [30.66779902590191]
大規模言語モデル (LLM) はしばしば、過剰な一致性を示す傾向がある。
LLMs固有の薬理は、議論を早めの合意に崩壊させる可能性がある。
論文 参考訳(メタデータ) (2025-09-27T02:27:13Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文 参考訳(メタデータ) (2025-05-20T17:18:17Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - A Unifying Framework for Learning Argumentation Semantics [47.84663434179473]
Inductive Logic Programmingアプローチを用いて、抽象的および構造化された議論フレームワークのアクセシビリティセマンティクスを解釈可能な方法で学習する新しいフレームワークを提案する。
提案手法は既存の議論解法よりも優れており,フォーマルな議論や人間と機械の対話の領域において,新たな研究の方向性が開けることになる。
論文 参考訳(メタデータ) (2023-10-18T20:18:05Z) - Explaining Image Classification with Visual Debates [26.76139301708958]
本稿では,特定の予測を行うための連続画像分類器の推論の理解と説明のための新しい議論フレームワークを提案する。
我々の枠組みは、対戦相手が見逃した推論の道筋を拾い上げることで、競技者が様々な議論を行うよう促す。
我々は、幾何学的SHAPEおよびMNISTデータセット上で、視覚的議論を実証し、評価する(実用的な実現)。
論文 参考訳(メタデータ) (2022-10-17T12:35:52Z) - The Unfolding Structure of Arguments in Online Debates: The case of a
No-Deal Brexit [0.0]
オンライン討論の潜在的な議論構造を抽出,分類,探索するための5段階の手法を提案する。
合意なし」ブレグジットに関するTwitterのデータを用いて、このイベントが実現した場合の期待される影響に焦点を当てる。
その結果,提案手法を議論の統計的レトリック解析に用いることができることがわかった。
論文 参考訳(メタデータ) (2021-03-09T12:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。