論文の概要: On the Formal Limits of Alignment Verification
- arxiv url: http://arxiv.org/abs/2603.08761v1
- Date: Sun, 08 Mar 2026 23:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.731057
- Title: On the Formal Limits of Alignment Verification
- Title(参考訳): 配向検証の形式的限界について
- Authors: Ayushi Agarwal,
- Abstract要約: AIの安全性に関する根本的な疑問は、アライメントが正式に認定されるかどうかである。
検証手順が3つの特性を同時に満たさないことを証明する。音性(不整合系が認定されない)、一般性(検証は時間内に実行される)、トラクタビリティである。
その結果、完全なニューラルネットワーク検証の計算複雑性、行動観察による内部目標構造の非識別性、無限領域上で定義された特性に対する有限証拠の限界という3つの独立した障壁が導かれる。
- 参考スコア(独自算出の注目度): 0.24049560288708582
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The goal of AI alignment is to ensure that an AI system reliably pursues intended objectives. A foundational question for AI safety is whether alignment can be formally certified: whether there exists a procedure that can guarantee that a given system satisfies an alignment specification. This paper studies the nature of alignment verification. We prove that no verification procedure can simultaneously satisfy three properties: soundness (no misaligned system is certified), generality (verification holds over the full input domain), and tractability (verification runs in polynomial time). Each pair of properties is achievable, but all three cannot hold simultaneously. Relaxing any one property restores the corresponding possibility, indicating that practical bounded or probabilistic assurance remains viable. The result follows from three independent barriers: the computational complexity of full-domain neural network verification, the non-identifiability of internal goal structure from behavioral observation, and the limits of finite evidence for properties defined over infinite domains. The trilemma establishes the limits of alignment certification and characterizes the regimes in which meaningful guarantees remain possible.
- Abstract(参考訳): AIアライメントの目標は、AIシステムが意図した目的を確実に追求することを保証することだ。
AI安全性に関する基本的な疑問は、アライメントが正式に認定されるかどうか、すなわち、アライメント仕様を満たすことを保証できるプロシージャが存在するかどうかである。
本稿ではアライメント検証の性質について考察する。
検証手順が3つの特性を同時に満たさないことを証明する。音性(不整合系が認証されない)、一般性(完全入力領域上の検証)、トラクタビリティ(多項式時間内での検証)。
それぞれの性質は達成可能であるが、3つとも同時に保持することはできない。
任意のプロパティを緩和することは、現実的な有界あるいは確率的保証が引き続き有効であることを示す、対応する可能性を取り戻す。
その結果、完全なニューラルネットワーク検証の計算複雑性、行動観察による内部目標構造の非識別性、無限領域上で定義された特性に対する有限証拠の限界という3つの独立した障壁が導かれる。
トリレンマはアライメント認定の限界を確立し、有意義な保証が可能な体制を特徴づける。
関連論文リスト
- Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI [0.0]
責任を負うAIに対して,Brouwerにインスパイアされたアサービビリティ制約を提案する。
ハイテイクドメインでは、公に検査可能でコンテスト可能な権利証明書を提供する場合に限り、システムはクレームを主張または否定することができる。
論文 参考訳(メタデータ) (2026-03-04T12:14:21Z) - Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees [5.156069978876762]
証明可能な保証付き回路を出力する自動アルゴリズムの組を提案する。
Input domain robustness*、*robust patching*、*minimality*の3つの保証にフォーカスします。
これら3つの保証のファミリーの間には、様々な理論的な関係が発見され、アルゴリズムの収束に重要な意味を持つ。
論文 参考訳(メタデータ) (2026-02-18T19:41:01Z) - Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation [0.0]
部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討した。
我々は、アライメント検証可能性問題を定式化し、ノーマティブ識別可能性を導入する。
以上の結果から,行動ベンチマークは,評価意識下での遅延アライメントに必要だが不十分な証拠を提供することが示された。
論文 参考訳(メタデータ) (2026-02-05T13:40:56Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator [54.562217603802075]
帰納的バイアスを伴う最終層において,自然性(美容性)とアライメントを別々に投影するSONA(Sum of Naturalness and Alignment)を導入する。
クラス条件生成タスクの実験により、SONAは最先端の手法に比べて優れたサンプル品質と条件アライメントを達成することが示された。
論文 参考訳(メタデータ) (2025-10-06T08:26:06Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Enumerating Safe Regions in Deep Neural Networks with Provable
Probabilistic Guarantees [86.1362094580439]
安全プロパティとDNNが与えられた場合、安全であるプロパティ入力領域のすべての領域の集合を列挙する。
この問題の #P-hardness のため,epsilon-ProVe と呼ばれる効率的な近似法を提案する。
提案手法は, 許容限界の統計的予測により得られた出力可到達集合の制御可能な過小評価を利用する。
論文 参考訳(メタデータ) (2023-08-18T22:30:35Z) - Evidential Turing Processes [11.021440340896786]
我々は、明らかなディープラーニング、ニューラルプロセス、ニューラルチューリングマシンのオリジナルの組み合わせを紹介する。
本稿では,3つの画像分類ベンチマークと2つのニューラルネットアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-06-02T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。