論文の概要: The alignment problem from a deep learning perspective
- arxiv url: http://arxiv.org/abs/2209.00626v1
- Date: Tue, 30 Aug 2022 02:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:34:02.344180
- Title: The alignment problem from a deep learning perspective
- Title(参考訳): 深層学習から見たアライメント問題
- Authors: Richard Ngo
- Abstract要約: レポートは、アライメント問題に対する懸念を、可能な限り簡潔で具体的で技術的に根ざした方法でカバーすることを目的としています。
現実的なトレーニングプロセスは、AGIにおける不整合目標の開発につながる可能性が高い、と私は主張する。
Cotra(2022年)の以前のレポートのように、私は私の主張を、実証的なAGIトレーニングプロセスを参照して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within the coming decades, artificial general intelligence (AGI) may surpass
human capabilities at a wide range of important tasks. This report makes a case
for why, without substantial action to prevent it, AGIs will likely use their
intelligence to pursue goals which are very undesirable (in other words,
misaligned) from a human perspective, with potentially catastrophic
consequences. The report aims to cover the key arguments motivating concern
about the alignment problem in a way that's as succinct, concrete and
technically-grounded as possible. I argue that realistic training processes
plausibly lead to the development of misaligned goals in AGIs, in particular
because neural networks trained via reinforcement learning will learn to plan
towards achieving a range of goals; gain more reward by deceptively pursuing
misaligned goals; and generalize in ways which undermine obedience. As in an
earlier report from Cotra (2022), I explain my claims with reference to an
illustrative AGI training process, then outline possible research directions
for addressing different aspects of the problem.
- Abstract(参考訳): 今後数十年のうちに、人工知能(agi)は、幅広い重要なタスクで人間の能力を超える可能性がある。
この報告書は、それを防ぐための実質的な行動がなければ、AIが人間の視点から非常に望ましくない(言い換えれば、不一致)目標を追求し、破滅的な結果をもたらす可能性がある理由を論じている。
報告書は、簡潔で具体的で技術的に根拠のある方法で、アライメントの問題に対する懸念を動機付ける重要な議論をカバーすることを目的としている。
特に、強化学習によってトレーニングされたニューラルネットワークは、さまざまな目標を達成するための計画を学ぶだろうし、誤った調整された目標を欺いて追求することでより多くの報酬を得るだろうし、従順性を損なう方法で一般化するからである。
Cotra(2022年)の以前のレポートのように、私の主張は、実証的なAGIトレーニングプロセスに関連して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。
関連論文リスト
- Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Levels of AGI: Operationalizing Progress on the Path to AGI [67.02053749878078]
このフレームワークは、AGIパフォーマンス、一般性、自律性のレベルを導入します。
このフレームワークが、自動運転のレベルと同等の方法で有効になることを願っています。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文 参考訳(メタデータ) (2023-09-05T03:42:46Z) - Concepts is All You Need: A More Direct Path to AGI [0.0]
20年ほど前にAGI(Artificial General Intelligence)という用語が発明されて以来、ほとんど進歩していない。
ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。
論文 参考訳(メタデータ) (2023-09-04T14:14:41Z) - Why We Don't Have AGI Yet [0.0]
元々のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。
このビジョンは、人間と同じように学習し、推論し、問題を解決することができるコンピュータシステムである「シンキングマシン」を構築することである。
いくつかの大規模取り組みが名目上AGIに取り組んできたが、純粋に焦点を絞ったAGI開発分野は、十分な資金提供や推進がなされていない。
論文 参考訳(メタデータ) (2023-08-07T13:59:31Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - When Brain-inspired AI Meets AGI [40.96159978312796]
我々は、人工知能の観点から、脳にインスパイアされたAIの包括的概要を提供する。
私たちは、脳にインスパイアされたAIの現在の進歩と、AGIとの広範な関係から始まります。
次に、人間の知性とAIの両面での重要な特徴について述べる。
論文 参考訳(メタデータ) (2023-03-28T12:46:38Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。