論文の概要: The alignment problem from a deep learning perspective
- arxiv url: http://arxiv.org/abs/2209.00626v5
- Date: Fri, 1 Sep 2023 20:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 11:16:20.360595
- Title: The alignment problem from a deep learning perspective
- Title(参考訳): 深層学習から見たアライメント問題
- Authors: Richard Ngo, Lawrence Chan, S\"oren Mindermann
- Abstract要約: 我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。
我々は、AGIの展開が世界における人間のコントロールを不可逆的に損なう可能性について概説する。
- 参考スコア(独自算出の注目度): 2.2347125462472746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In coming decades, artificial general intelligence (AGI) may surpass human
capabilities at many critical tasks. We argue that, without substantial effort
to prevent it, AGIs could learn to pursue goals that conflict (i.e., are
misaligned) with human interests. If trained like today's most capable models,
AGIs could learn to act deceptively to receive higher reward, learn
internally-represented goals which generalize beyond their fine-tuning
distributions, and pursue those goals using power-seeking strategies. We review
emerging evidence for these properties. AGIs with these properties would be
difficult to align and may appear aligned even when they are not. We outline
how the deployment of misaligned AGIs might irreversibly undermine human
control over the world, and briefly review research directions aimed at
preventing this outcome.
- Abstract(参考訳): 今後数十年で、人工知能(agi)は多くの重要なタスクで人間の能力を超える可能性がある。
我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。
現代の最も有能なモデルのように訓練された場合、AGIは、より高い報酬を得るために欺意的に行動することを学び、微調整された分布を超えて一般化する内部表現された目標を学び、パワー探索戦略を用いてそれらの目標を追求することができる。
これらの特性の新たな証拠をレビューする。
これらの特性を持つAGIは整列が難しく、そうでない場合でも整列する可能性がある。
我々は,agisの展開が世界における人間の制御を不可逆的に損なう可能性があることを概説し,この成果を未然に防ぐための研究指針を簡潔に検討する。
関連論文リスト
- "I Am the One and Only, Your Cyber BFF": Understanding the Impact of GenAI Requires Understanding the Impact of Anthropomorphic AI [55.99010491370177]
我々は、人為的AIの社会的影響をマッピングしない限り、生成AIの社会的影響を徹底的にマッピングすることはできないと論じる。
人為的AIシステムは、人間のように知覚されるアウトプットを生成する傾向が強まっている。
論文 参考訳(メタデータ) (2024-10-11T04:57:41Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - How Far Are We From AGI: Are LLMs All We Need? [15.705756259264932]
AGIは、ヒューマンインテリジェンスに匹敵する効率と有効性で、多様な現実世界のタスクを実行する能力で区別されている。
本稿では、AGIに必要な機能フレームワークを概説し、内部、インターフェース、システム次元を統合する。
AIの統合によるユビキタスな影響について、具体的な洞察を得るため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。
論文 参考訳(メタデータ) (2024-05-16T17:59:02Z) - Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文 参考訳(メタデータ) (2023-09-05T03:42:46Z) - Concepts is All You Need: A More Direct Path to AGI [0.0]
20年ほど前にAGI(Artificial General Intelligence)という用語が発明されて以来、ほとんど進歩していない。
ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。
論文 参考訳(メタデータ) (2023-09-04T14:14:41Z) - Why We Don't Have AGI Yet [0.0]
元々のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。
このビジョンは、人間と同じように学習し、推論し、問題を解決することができるコンピュータシステムである「シンキングマシン」を構築することである。
いくつかの大規模取り組みが名目上AGIに取り組んできたが、純粋に焦点を絞ったAGI開発分野は、十分な資金提供や推進がなされていない。
論文 参考訳(メタデータ) (2023-08-07T13:59:31Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。