論文の概要: Aligning Artificial Superintelligence via a Multi-Box Protocol
- arxiv url: http://arxiv.org/abs/2511.21779v1
- Date: Wed, 26 Nov 2025 09:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.233165
- Title: Aligning Artificial Superintelligence via a Multi-Box Protocol
- Title(参考訳): マルチボックスプロトコルによる人工超知能の調整
- Authors: Avraham Yair Negozio,
- Abstract要約: 本稿では,複数のシステム間の相互検証に基づいて,人工超知能(ASI)を整合させる新しいプロトコルを提案する。
このプロトコルは、複数の多様な人工超知能を厳密な隔離(ボックス)に含み、人間は完全にシステム外にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel protocol for aligning artificial superintelligence (ASI) based on mutual verification among multiple isolated systems that self-modify to achieve alignment. The protocol operates by containing multiple diverse artificial superintelligences in strict isolation ("boxes"), with humans remaining entirely outside the system. Each superintelligence has no ability to communicate with humans and cannot communicate directly with other superintelligences. The only interaction possible is through an auditable submission interface accessible exclusively to the superintelligences themselves, through which they can: (1) submit alignment proofs with attested state snapshots, (2) validate or disprove other superintelligences' proofs, (3) request self-modifications, (4) approve or disapprove modification requests from others, (5) report hidden messages in submissions, and (6) confirm or refute hidden message reports. A reputation system incentivizes honest behavior, with reputation gained through correct evaluations and lost through incorrect ones. The key insight is that without direct communication channels, diverse superintelligences can only achieve consistent agreement by converging on objective truth rather than coordinating on deception. This naturally leads to what we call a "consistent group", essentially a truth-telling coalition that emerges because isolated systems cannot coordinate on lies but can independently recognize valid claims. Release from containment requires both high reputation and verification by multiple high-reputation superintelligences. While our approach requires substantial computational resources and does not address the creation of diverse artificial superintelligences, it provides a framework for leveraging peer verification among superintelligent systems to solve the alignment problem.
- Abstract(参考訳): 本稿では,アライメントを実現するために自己修正を行う複数の孤立系間の相互検証に基づいて,人工超知能(ASI)を整列するための新しいプロトコルを提案する。
このプロトコルは、複数の多様な人工超知能を厳密な隔離(ボックス)に含み、人間は完全にシステム外にある。
それぞれの超知能は人間とコミュニケーションする能力がなく、他の超知能と直接通信することができない。
1)証明された状態スナップショットによるアライメント証明の提出、(2)他のスーパーインテリジェンスの証明の検証または無効化、(3)要求の自己修正、(4)他からの修正要求の承認または無効化、(5)提出中の隠されたメッセージの報告、(6)隠されたメッセージレポートの確認または無効化。
評価システムは、正しい評価によって評判が得られ、誤った評価によって失われた、誠実な行動にインセンティブを与える。
鍵となる洞察は、直接のコミュニケーションチャネルがなければ、多様な超知能は、騙しを調整するのではなく、客観的真実を収束させることによって、一貫した合意しか達成できないということである。
これは自然に私たちが"一貫性のあるグループ"と呼ぶものにつながります。
封じ込めから解放するには、高い評価と複数の高評価超知能による検証が必要である。
提案手法は,計算資源がかなり必要であり,多種多様な人工超知能の創出に対処するものではないが,アライメント問題を解決するために,超知能システム間のピア検証を活用するための枠組みを提供する。
関連論文リスト
- Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - The STAR-XAI Protocol: A Framework for Inducing and Verifying Agency, Reasoning, and Reliability in AI Agents [0.0]
大きな推論モデルの「ブラックボックス」の性質は、信頼性と透明性の限界を示す。
本稿では,信頼性の高いAIエージェントをトレーニングし,運用するための新たな運用方法論であるSTAR-XAIプロトコルを紹介する。
我々の方法は、明示的で進化する象徴的ルールブックによって支配される構造化ソクラテス的対話として、人間とAIの相互作用を再編成する。
論文 参考訳(メタデータ) (2025-09-22T16:24:17Z) - Contemplative Artificial Intelligence [1.6591901705380634]
我々は、AIシステムにレジリエントなWise World Modelを組み込むことができる4つの公理原理を示す。
第一にマインドフルネスは、創発的なサブゴールの自己監視と再調整を可能にする。
第二に、空の森は犬のゴールを固定し、厳格な事前を緩和する。
第三に、非二重性は敵の自己他の境界を解消する。
第4に、無制限のケアは、苦しみの普遍的な減少を動機づける。
論文 参考訳(メタデータ) (2025-04-21T14:20:49Z) - Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文 参考訳(メタデータ) (2025-02-26T05:59:45Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Testing System Intelligence [0.902877390685954]
私たちは、置換テストに合格するインテリジェントシステムの構築には、現在のAIの範囲外にある一連の技術的な問題が含まれる、と論じています。
我々は,人間と機械のスキルの相補性に基づく代替テストが,多種多様な知能概念につながることを示唆する。
論文 参考訳(メタデータ) (2023-05-19T06:46:32Z) - AutoReply: Detecting Nonsense in Dialogue Introspectively with
Discriminative Replies [71.62832112141913]
対話モデルは、不適切なメッセージを示す応答の確率を計算し、内観的に自分のメッセージの誤りを検出することができることを示す。
まず、手作りの返信は外交と同じくらい複雑なアプリケーションにおけるナンセンスを検出するタスクに有効であることを示す。
AutoReplyの生成した応答は手作りの応答よりも優れており、慎重に調整された大規模な教師付きモデルと同等に動作することがわかった。
論文 参考訳(メタデータ) (2022-11-22T22:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。