論文の概要: What is Harm? Baby Don't Hurt Me! On the Impossibility of Complete Harm Specification in AI Alignment
- arxiv url: http://arxiv.org/abs/2501.16448v1
- Date: Mon, 27 Jan 2025 19:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:29.574105
- Title: What is Harm? Baby Don't Hurt Me! On the Impossibility of Complete Harm Specification in AI Alignment
- Title(参考訳): ハームとは何か? AIアライメントにおける完全なハーム仕様の不確実性について
- Authors: Robin Young,
- Abstract要約: 「害はない」は人工知能の根本的な課題に直面している。
害を構成するものをどうやって特定できるのか?
我々は、その仕様の外部で害が定義されているシステムでは、完全な害仕様は不可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: "First, do no harm" faces a fundamental challenge in artificial intelligence: how can we specify what constitutes harm? While prior work treats harm specification as a technical hurdle to be overcome through better algorithms or more data, we argue this assumption is unsound. Drawing on information theory, we demonstrate that complete harm specification is fundamentally impossible for any system where harm is defined external to its specifications. This impossibility arises from an inescapable information-theoretic gap: the entropy of harm H(O) always exceeds the mutual information I(O;I) between ground truth harm O and a system's specifications I. We introduce two novel metrics: semantic entropy H(S) and the safety-capability ratio I(O;I)/H(O), to quantify these limitations. Through a progression of increasingly sophisticated specification attempts, we show why each approach must fail and why the resulting gaps are not mere engineering challenges but fundamental constraints akin to the halting problem. These results suggest a paradigm shift: rather than pursuing complete specifications, AI alignment research should focus on developing systems that can operate safely despite irreducible specification uncertainty.
- Abstract(参考訳): 「第一に害はない」は人工知能の根本的な課題に直面している。
以前の作業では、より良いアルゴリズムやより多くのデータによって克服される技術的ハードルとして、有害な仕様を扱いますが、この仮定は正しくありません。
情報理論に基づいて、その仕様の外部に害が定義されているシステムにおいて、完全害仕様は基本的に不可能であることを示す。
この不合理性は、難解な情報理論のギャップから生じる: 害H(O)のエントロピーは、常に地上の真理害Oとシステムの仕様Iの相互情報I(O;I)を超過する; セマンティックエントロピーH(S)と安全能力比I(O;I)/H(O)の2つの新しい指標を導入し、これらの制限を定量化する。
より洗練された仕様化の試みの進展を通じて、各アプローチが失敗しなくてはならない理由と、結果として生じるギャップが単なるエンジニアリング上の課題ではなく、停止する問題に類似した基本的な制約であることを示す。
これらの結果は、完全な仕様を追求するのではなく、AIアライメント研究は、既約仕様の不確実性にもかかわらず安全に運用可能なシステムの開発に注力すべきである、というパラダイムシフトを示唆している。
関連論文リスト
- Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding [49.973156959947346]
既存のビデオ時間グラウンド(VTG)モデルは精度は優れているが、オープン語彙クエリや未トリミングビデオによって引き起こされるオープンワールドの課題を見落としていることが多い。
2段階のクロスモーダルアライメントタスクの恩恵を受ける頑健なネットワークモジュールを導入する。
Deep Evidential Regression (DER)を統合して、トレーニング中の不確実性を明確かつ徹底的に定量化する。
これに対し,我々は,不確実性学習フレームワークをゼロから強化する簡易かつ効果的なGeom-regularizerを開発した。
論文 参考訳(メタデータ) (2024-08-29T05:32:03Z) - Can a Bayesian Oracle Prevent Harm from an Agent? [48.12936383352277]
我々は、所定の安全仕様に違反する確率に基づいて、文脈依存境界を推定することを検討する。
世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、我々は真だが未知の仮説の下で予測される安全違反の確率に基づいて導かれる。
iidの場合と非idの場合の2つの形態を考察し、その結果を実用的なAIガードレールに変換するためのオープンな問題に結論付ける。
論文 参考訳(メタデータ) (2024-08-09T18:10:42Z) - System Theoretic View on Uncertainties [0.0]
本稿では,性能制限に対処するシステム理論アプローチを提案する。
我々は不確実性、すなわち知識の欠如に基づく分類を根本原因とする。
論文 参考訳(メタデータ) (2023-03-07T16:51:24Z) - The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural
Networks [94.63547069706459]
#DNN-Verification問題は、DNNの入力構成の数を数えることによって安全性に反する結果となる。
違反の正確な数を返す新しい手法を提案する。
安全クリティカルなベンチマークのセットに関する実験結果を示す。
論文 参考訳(メタデータ) (2023-01-17T18:32:01Z) - Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文 参考訳(メタデータ) (2022-10-17T17:59:49Z) - Outlier Detection using AI: A Survey [0.0]
Outlier Detection (OD) は、成長を続ける研究分野である。
本章では,AI技術を用いたOD手法の進歩について論じる。
論文 参考訳(メタデータ) (2021-12-01T15:59:55Z) - Impossibility Results in AI: A Survey [3.198144010381572]
不合理性定理(英: impossibility theorem)は、特定の問題や問題の集合が主張に記述されているように解決できないことを示す定理である。
我々はAIの領域に適用可能な不合理性定理を、推論、識別不能、誘導、トレードオフ、難解性の5つのカテゴリに分類した。
我々は,ゆるやかな不合理性は,安全に対する100%の保証を否定する,と結論づける。
論文 参考訳(メタデータ) (2021-09-01T16:52:13Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Towards Probability-based Safety Verification of Systems with Components
from Machine Learning [8.75682288556859]
現在、機械学習システムの安全性の検証は不可能か、少なくとも非常に難しいと考えられている。
i) ほとんどのMLアプローチは、そのパワーとエラーの原因の両方である帰納的です。
制御実験により推定された誤差の確率と帰納的学習自体による出力の確率に基づく検証を提案する。
論文 参考訳(メタデータ) (2020-03-02T19:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。