論文の概要: Scalable AI Safety via Doubly-Efficient Debate
- arxiv url: http://arxiv.org/abs/2311.14125v1
- Date: Thu, 23 Nov 2023 17:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:37:54.138974
- Title: Scalable AI Safety via Doubly-Efficient Debate
- Title(参考訳): 二重効率な議論によるスケーラブルなAI安全性
- Authors: Jonah Brown-Cohen, Geoffrey Irving, Georgios Piliouras
- Abstract要約: 強力な能力を持つ事前訓練されたAIシステムの出現は、AI安全性に対する重要な課題を提起している。
当初のフレームワークは、正直な戦略がAIシステムを指数関数的なステップでシミュレートできるという仮定に基づいていた。
新しいプロトコルを設計することで、これらの課題に対処する方法を示す。
- 参考スコア(独自算出の注目度): 37.25328923531058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of pre-trained AI systems with powerful capabilities across a
diverse and ever-increasing set of complex domains has raised a critical
challenge for AI safety as tasks can become too complicated for humans to judge
directly. Irving et al. [2018] proposed a debate method in this direction with
the goal of pitting the power of such AI models against each other until the
problem of identifying (mis)-alignment is broken down into a manageable
subtask. While the promise of this approach is clear, the original framework
was based on the assumption that the honest strategy is able to simulate
deterministic AI systems for an exponential number of steps, limiting its
applicability. In this paper, we show how to address these challenges by
designing a new set of debate protocols where the honest strategy can always
succeed using a simulation of a polynomial number of steps, whilst being able
to verify the alignment of stochastic AI systems, even when the dishonest
strategy is allowed to use exponentially many simulation steps.
- Abstract(参考訳): 多様な複雑なドメインの集合にまたがる強力な能力を持つ事前訓練されたAIシステムの出現は、人間が直接判断するにはタスクが複雑すぎるため、AIの安全性にとって重要な課題となった。
アーヴィングとアル。
[2018]は、(ミス)アライメントを識別する問題が管理可能なサブタスクに分解されるまで、このようなAIモデルのパワーを互いに比較することを目的として、この方向の議論手法を提案した。
このアプローチの約束は明確だが、当初のフレームワークは、正直な戦略が決定論的AIシステムを指数関数的なステップでシミュレートし、適用性を制限するという前提に基づいていた。
本稿では, 確率的AIシステムのアライメントを検証すると同時に, 指数関数的に多くのシミュレーションステップを使用できる場合にも, 多項式数のシミュレーションを用いて, 正直な戦略が常に成功するような, 新たな議論プロトコルを設計することで, これらの課題に対処する方法を示す。
関連論文リスト
- Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。
我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文 参考訳(メタデータ) (2024-07-04T05:46:39Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - The AI Security Pyramid of Pain [0.18820558426635298]
私たちは、AI固有の脅威を分類し優先順位付けするために、Painのサイバーセキュリティピラミッドに適応するフレームワークであるPainのAIセキュリティピラミッドを紹介します。
このフレームワークは、さまざまなレベルのAI脅威を理解し、対処するための構造化されたアプローチを提供する。
論文 参考訳(メタデータ) (2024-02-16T21:14:11Z) - Scaling #DNN-Verification Tools with Efficient Bound Propagation and
Parallel Computing [57.49021927832259]
ディープニューラルネットワーク(DNN)は多くのシナリオで異常な結果を示した強力なツールです。
しかし、それらの複雑な設計と透明性の欠如は、現実世界のアプリケーションに適用する際の安全性上の懸念を提起する。
DNNの形式的検証(FV)は、安全面の証明可能な保証を提供する貴重なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-10T13:51:25Z) - The Alignment Problem in Context [0.05657375260432172]
大規模言語モデルのアライメント問題を解決するために,私たちが現在進行中であるかどうかを評価する。
大規模な言語モデルは敵の攻撃に弱いままなので、アライメントのための既存の戦略は不十分である、と私は論じます。
これは、アライメント問題は現在のAIシステムでは未解決であるだけでなく、その能力を著しく損なうことなく、本質的に解決が困難であることを示している。
論文 参考訳(メタデータ) (2023-11-03T17:57:55Z) - AI Hazard Management: A framework for the systematic management of root
causes for AI risks [0.0]
本稿ではAI Hazard Management(AIHM)フレームワークを紹介する。
AIのハザードを体系的に識別し、評価し、治療するための構造化されたプロセスを提供する。
総合的な最先端分析からAIハザードリストを構築する。
論文 参考訳(メタデータ) (2023-10-25T15:55:50Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Efficient falsification approach for autonomous vehicle validation using
a parameter optimisation technique based on reinforcement learning [6.198523595657983]
自律走行車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているように見える。
交通参加者とダイナミックワールドの行動の不確実性は、先進的な自律システムにおいて反応を引き起こす。
本稿では,システム・アンダー・テストを評価するための効率的なファルシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T02:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。