論文の概要: On the Undecidability of Artificial Intelligence Alignment: Machines that Halt
- arxiv url: http://arxiv.org/abs/2408.08995v1
- Date: Fri, 16 Aug 2024 19:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:06:45.901998
- Title: On the Undecidability of Artificial Intelligence Alignment: Machines that Halt
- Title(参考訳): 人工知能アライメントの不確定性について--ハトする機械-
- Authors: Gabriel Adriano de Melo, Marcos Ricardo Omena De Albuquerque Maximo, Nei Yoshihiro Soma, Paulo Andre Lima de Castro,
- Abstract要約: 内部アライメント問題は、任意の人工知能モデルがその入力によって出力の非自明なアライメント関数を満たすかどうかを主張するが、決定不可能である。
任意のAIモデルにポストホックの特質を課すのではなく、アライメントはAIアーキテクチャから保証されたプロパティであるべきだ、と私たちは主張する。
我々は、AIモデルが有限実行ステップで終端状態に常に到達することを保証し、停止制約を課すことも提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inner alignment problem, which asserts whether an arbitrary artificial intelligence (AI) model satisfices a non-trivial alignment function of its outputs given its inputs, is undecidable. This is rigorously proved by Rice's theorem, which is also equivalent to a reduction to Turing's Halting Problem, whose proof sketch is presented in this work. Nevertheless, there is an enumerable set of provenly aligned AIs that are constructed from a finite set of provenly aligned operations. Therefore, we argue that the alignment should be a guaranteed property from the AI architecture rather than a characteristic imposed post-hoc on an arbitrary AI model. Furthermore, while the outer alignment problem is the definition of a judge function that captures human values and preferences, we propose that such a function must also impose a halting constraint that guarantees that the AI model always reaches a terminal state in finite execution steps. Our work presents examples and models that illustrate this constraint and the intricate challenges involved, advancing a compelling case for adopting an intrinsically hard-aligned approach to AI systems architectures that ensures halting.
- Abstract(参考訳): 内部アライメント問題は、任意の人工知能(AI)モデルがその入力によって出力の非自明なアライメント関数を満たすかどうかを判断できない。
これはライスの定理によって厳密に証明され、チューリングのハルティング問題への還元と等価である。
それでも、証明された整列したAIの集合は、証明された整列した操作の有限集合から構築されている。
したがって、アライメントは任意のAIモデルにポストホックの特質を課すのではなく、AIアーキテクチャから保証されたプロパティであるべきだと論じる。
さらに, 外部アライメント問題は, 人間の価値観や嗜好を捉えた判定関数の定義であるが, このような関数は, 有限実行段階においてAIモデルが常に終端状態に達することを保証した停止制約を課す必要がある。
私たちの研究は、この制約と関連する複雑な課題を説明するサンプルとモデルを提示し、停止を保証するAIシステムアーキテクチャに本質的にハードアラインなアプローチを採用するための説得力のあるケースを前進させます。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Adaptation of XAI to Auto-tuning for Numerical Libraries [0.0]
説明可能なAI(XAI)技術は、AIモデル開発の合理化と、ユーザへのAI出力の説明の負担軽減を目的として、注目を集めている。
本研究は,2つの異なるプロセスに統合されたAIモデルのXAIに着目し,数値計算を行う。
論文 参考訳(メタデータ) (2024-05-12T09:00:56Z) - Scalable AI Safety via Doubly-Efficient Debate [37.25328923531058]
強力な能力を持つ事前訓練されたAIシステムの出現は、AI安全性に対する重要な課題を提起している。
当初のフレームワークは、正直な戦略がAIシステムを指数関数的なステップでシミュレートできるという仮定に基づいていた。
新しいプロトコルを設計することで、これらの課題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-11-23T17:46:30Z) - Oracle Computability and Turing Reducibility in the Calculus of
Inductive Constructions [0.0]
インダクティブ・コンストラクションの計算におけるオラクル計算可能性とチューリング再現性の概念を総合的に展開する。
通常、合成手法では、メタレベル関数に基づいたオラクル計算の定義を用いる。
チューリングの再現性は上半格子を形成し、決定可能性を持ち、真理値の再現性よりも厳密に表現可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T13:16:46Z) - On Formal Feature Attribution and Its Approximation [37.3078859524959]
本稿では,形式的説明列挙に基づく特徴属性に対する形式的XAIの応用法を提案する。
この問題の実際的な複雑さを考慮し, 正確なFFAを近似する効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-07T04:20:36Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Symmetric Tensor Networks for Generative Modeling and Constrained
Combinatorial Optimization [72.41480594026815]
ポートフォリオ最適化からロジスティクスに至るまで、制約付き最適化問題は業界に多い。
これらの問題の解決における主要な障害の1つは、有効な検索空間を制限する非自明なハード制約の存在である。
本研究では、Ax=bという形の任意の整数値等式制約をU(1)対称ネットワーク(TN)に直接エンコードし、それらの適用性を量子に着想を得た生成モデルとして活用する。
論文 参考訳(メタデータ) (2022-11-16T18:59:54Z) - On The Computational Complexity of Self-Attention [22.3395465641384]
現代の変圧器は、時間と空間の複雑さが入力の長さの2乗である自己認識機構に依存している。
我々は、強い指数時間仮説(SETH)が偽でない限り、自己注意の時間複雑性は入力長において必然的に二次的であることを証明した。
下界を補うものとして、有限テイラー級数を用いて線型時間でドット積自己アテンションを近似することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-09-11T14:38:10Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - High-dimensional separability for one- and few-shot learning [58.8599521537]
この作業は、実用的な質問、人工知能(AI)エラーの修正によって進められている。
特殊な外部デバイスである修正器が開発されている。従来のAIシステムを変更することなく、迅速かつ非イテレーティブなシステム修正を提供する必要がある。
AIシステムの新しいマルチコレクタが提示され、深層畳み込みニューラルネットワークによってエラーを予測し、新しいクラスのオブジェクトを学習する例が紹介される。
論文 参考訳(メタデータ) (2021-06-28T14:58:14Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。