論文の概要: The alignment problem from a deep learning perspective
- arxiv url: http://arxiv.org/abs/2209.00626v5
- Date: Fri, 1 Sep 2023 20:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 11:16:20.360595
- Title: The alignment problem from a deep learning perspective
- Title(参考訳): 深層学習から見たアライメント問題
- Authors: Richard Ngo, Lawrence Chan, S\"oren Mindermann
- Abstract要約: 我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。
我々は、AGIの展開が世界における人間のコントロールを不可逆的に損なう可能性について概説する。
- 参考スコア(独自算出の注目度): 2.2347125462472746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In coming decades, artificial general intelligence (AGI) may surpass human
capabilities at many critical tasks. We argue that, without substantial effort
to prevent it, AGIs could learn to pursue goals that conflict (i.e., are
misaligned) with human interests. If trained like today's most capable models,
AGIs could learn to act deceptively to receive higher reward, learn
internally-represented goals which generalize beyond their fine-tuning
distributions, and pursue those goals using power-seeking strategies. We review
emerging evidence for these properties. AGIs with these properties would be
difficult to align and may appear aligned even when they are not. We outline
how the deployment of misaligned AGIs might irreversibly undermine human
control over the world, and briefly review research directions aimed at
preventing this outcome.
- Abstract(参考訳): 今後数十年で、人工知能(agi)は多くの重要なタスクで人間の能力を超える可能性がある。
我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。
現代の最も有能なモデルのように訓練された場合、AGIは、より高い報酬を得るために欺意的に行動することを学び、微調整された分布を超えて一般化する内部表現された目標を学び、パワー探索戦略を用いてそれらの目標を追求することができる。
これらの特性の新たな証拠をレビューする。
これらの特性を持つAGIは整列が難しく、そうでない場合でも整列する可能性がある。
我々は,agisの展開が世界における人間の制御を不可逆的に損なう可能性があることを概説し,この成果を未然に防ぐための研究指針を簡潔に検討する。
関連論文リスト
- Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Levels of AGI: Operationalizing Progress on the Path to AGI [67.02053749878078]
このフレームワークは、AGIパフォーマンス、一般性、自律性のレベルを導入します。
このフレームワークが、自動運転のレベルと同等の方法で有効になることを願っています。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文 参考訳(メタデータ) (2023-09-05T03:42:46Z) - Concepts is All You Need: A More Direct Path to AGI [0.0]
20年ほど前にAGI(Artificial General Intelligence)という用語が発明されて以来、ほとんど進歩していない。
ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。
論文 参考訳(メタデータ) (2023-09-04T14:14:41Z) - Why We Don't Have AGI Yet [0.0]
元々のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。
このビジョンは、人間と同じように学習し、推論し、問題を解決することができるコンピュータシステムである「シンキングマシン」を構築することである。
いくつかの大規模取り組みが名目上AGIに取り組んできたが、純粋に焦点を絞ったAGI開発分野は、十分な資金提供や推進がなされていない。
論文 参考訳(メタデータ) (2023-08-07T13:59:31Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - When Brain-inspired AI Meets AGI [40.96159978312796]
我々は、人工知能の観点から、脳にインスパイアされたAIの包括的概要を提供する。
私たちは、脳にインスパイアされたAIの現在の進歩と、AGIとの広範な関係から始まります。
次に、人間の知性とAIの両面での重要な特徴について述べる。
論文 参考訳(メタデータ) (2023-03-28T12:46:38Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。