論文の概要: The alignment problem from a deep learning perspective
- arxiv url: http://arxiv.org/abs/2209.00626v1
- Date: Tue, 30 Aug 2022 02:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:34:02.344180
- Title: The alignment problem from a deep learning perspective
- Title(参考訳): 深層学習から見たアライメント問題
- Authors: Richard Ngo
- Abstract要約: レポートは、アライメント問題に対する懸念を、可能な限り簡潔で具体的で技術的に根ざした方法でカバーすることを目的としています。
現実的なトレーニングプロセスは、AGIにおける不整合目標の開発につながる可能性が高い、と私は主張する。
Cotra(2022年)の以前のレポートのように、私は私の主張を、実証的なAGIトレーニングプロセスを参照して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within the coming decades, artificial general intelligence (AGI) may surpass
human capabilities at a wide range of important tasks. This report makes a case
for why, without substantial action to prevent it, AGIs will likely use their
intelligence to pursue goals which are very undesirable (in other words,
misaligned) from a human perspective, with potentially catastrophic
consequences. The report aims to cover the key arguments motivating concern
about the alignment problem in a way that's as succinct, concrete and
technically-grounded as possible. I argue that realistic training processes
plausibly lead to the development of misaligned goals in AGIs, in particular
because neural networks trained via reinforcement learning will learn to plan
towards achieving a range of goals; gain more reward by deceptively pursuing
misaligned goals; and generalize in ways which undermine obedience. As in an
earlier report from Cotra (2022), I explain my claims with reference to an
illustrative AGI training process, then outline possible research directions
for addressing different aspects of the problem.
- Abstract(参考訳): 今後数十年のうちに、人工知能(agi)は、幅広い重要なタスクで人間の能力を超える可能性がある。
この報告書は、それを防ぐための実質的な行動がなければ、AIが人間の視点から非常に望ましくない(言い換えれば、不一致)目標を追求し、破滅的な結果をもたらす可能性がある理由を論じている。
報告書は、簡潔で具体的で技術的に根拠のある方法で、アライメントの問題に対する懸念を動機付ける重要な議論をカバーすることを目的としている。
特に、強化学習によってトレーニングされたニューラルネットワークは、さまざまな目標を達成するための計画を学ぶだろうし、誤った調整された目標を欺いて追求することでより多くの報酬を得るだろうし、従順性を損なう方法で一般化するからである。
Cotra(2022年)の以前のレポートのように、私の主張は、実証的なAGIトレーニングプロセスに関連して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。
関連論文リスト
- "I Am the One and Only, Your Cyber BFF": Understanding the Impact of GenAI Requires Understanding the Impact of Anthropomorphic AI [55.99010491370177]
我々は、人為的AIの社会的影響をマッピングしない限り、生成AIの社会的影響を徹底的にマッピングすることはできないと論じる。
人為的AIシステムは、人間のように知覚されるアウトプットを生成する傾向が強まっている。
論文 参考訳(メタデータ) (2024-10-11T04:57:41Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - How Far Are We From AGI: Are LLMs All We Need? [15.705756259264932]
AGIは、ヒューマンインテリジェンスに匹敵する効率と有効性で、多様な現実世界のタスクを実行する能力で区別されている。
本稿では、AGIに必要な機能フレームワークを概説し、内部、インターフェース、システム次元を統合する。
AIの統合によるユビキタスな影響について、具体的な洞察を得るため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。
論文 参考訳(メタデータ) (2024-05-16T17:59:02Z) - Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文 参考訳(メタデータ) (2023-09-05T03:42:46Z) - Concepts is All You Need: A More Direct Path to AGI [0.0]
20年ほど前にAGI(Artificial General Intelligence)という用語が発明されて以来、ほとんど進歩していない。
ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。
論文 参考訳(メタデータ) (2023-09-04T14:14:41Z) - Why We Don't Have AGI Yet [0.0]
元々のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。
このビジョンは、人間と同じように学習し、推論し、問題を解決することができるコンピュータシステムである「シンキングマシン」を構築することである。
いくつかの大規模取り組みが名目上AGIに取り組んできたが、純粋に焦点を絞ったAGI開発分野は、十分な資金提供や推進がなされていない。
論文 参考訳(メタデータ) (2023-08-07T13:59:31Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。