論文の概要: Avoiding Obfuscation with Prover-Estimator Debate
- arxiv url: http://arxiv.org/abs/2506.13609v1
- Date: Mon, 16 Jun 2025 15:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.804451
- Title: Avoiding Obfuscation with Prover-Estimator Debate
- Title(参考訳): Prover-Estimator Debateによる難読化の回避
- Authors: Jonah Brown-Cohen, Geoffrey Irving, Georgios Piliouras,
- Abstract要約: 本稿では,複雑な問題に対する人間の判断の正当性を保証するAI討論のためのプロトコルを提案する。
不正直な議論者は、正直な相手に計算的に難解な問題を解くよう強制する計算効率のよい戦略を利用できる。
- 参考スコア(独自算出の注目度): 33.14645106993676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training powerful AI systems to exhibit desired behaviors hinges on the ability to provide accurate human supervision on increasingly complex tasks. A promising approach to this problem is to amplify human judgement by leveraging the power of two competing AIs in a debate about the correct solution to a given problem. Prior theoretical work has provided a complexity-theoretic formalization of AI debate, and posed the problem of designing protocols for AI debate that guarantee the correctness of human judgements for as complex a class of problems as possible. Recursive debates, in which debaters decompose a complex problem into simpler subproblems, hold promise for growing the class of problems that can be accurately judged in a debate. However, existing protocols for recursive debate run into the obfuscated arguments problem: a dishonest debater can use a computationally efficient strategy that forces an honest opponent to solve a computationally intractable problem to win. We mitigate this problem with a new recursive debate protocol that, under certain stability assumptions, ensures that an honest debater can win with a strategy requiring computational efficiency comparable to their opponent.
- Abstract(参考訳): 望ましい行動を示すために強力なAIシステムを訓練することは、ますます複雑なタスクに対して正確な人間の監督を提供する能力に依存する。
この問題に対する有望なアプローチは、与えられた問題に対する正しい解決策に関する議論において、2つの競合するAIのパワーを活用することによって、人間の判断を増幅することである。
以前の理論的研究は、AI論争の複雑性理論的な形式化を提供し、AI討論のためのプロトコルを設計する問題を提示し、可能な限り複雑な問題に対する人間の判断の正しさを保証する。
再帰的な議論では、議論者は複雑な問題をより単純なサブプロブレムに分解し、議論において正確に判断できる問題のクラスを拡大する約束を果たす。
しかし、再帰的議論のための既存のプロトコルは、難解な議論の問題に陥る: 不正な議論者は、計算的に効率的な戦略を使って、正直な相手に計算的に難解な問題を解くように強制することができる。
我々は、ある安定性の仮定の下で、誠実な議論者が相手に匹敵する計算効率を必要とする戦略で勝つことを確実にする新しい再帰的議論プロトコルでこの問題を緩和する。
関連論文リスト
- An alignment safety case sketch based on debate [3.2504831918078168]
提案された解決策の1つは、システムの出力の欠陥を議論を通じて指摘するために、別の超人的システムを活用することである。
本稿では,AIの安全性に関する議論の価値について概説する。
論文 参考訳(メタデータ) (2025-05-06T21:53:44Z) - LLMs as Debate Partners: Utilizing Genetic Algorithms and Adversarial Search for Adaptive Arguments [0.0]
DebateBrawlは、Large Language Models (LLM)、GA、Adversarial Search (AS)を統合するAIベースの議論プラットフォームである。
このシステムは、その戦略をリアルタイムで適応しながら、一貫性があり、文脈的に関連する議論を生成する際、顕著な性能を示す。
このシステムの精度を維持する能力(人間のみの議論では78%に比べて92%)は、AI支援談話における重要な懸念に対処する。
論文 参考訳(メタデータ) (2024-12-09T06:03:48Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Scalable AI Safety via Doubly-Efficient Debate [37.25328923531058]
強力な能力を持つ事前訓練されたAIシステムの出現は、AI安全性に対する重要な課題を提起している。
当初のフレームワークは、正直な戦略がAIシステムを指数関数的なステップでシミュレートできるという仮定に基づいていた。
新しいプロトコルを設計することで、これらの課題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-11-23T17:46:30Z) - Solving NLP Problems through Human-System Collaboration: A
Discussion-based Approach [98.13835740351932]
本研究の目的は,対話を通じて予測を議論・洗練するシステムのための,データセットと計算フレームワークを構築することである。
提案システムでは,自然言語推論タスクにおいて,最大25ポイントの精度向上が期待できることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。