Fugu-MT 論文翻訳(概要): The alignment problem from a deep learning perspective

論文の概要: The alignment problem from a deep learning perspective

arxiv url: http://arxiv.org/abs/2209.00626v1
Date: Tue, 30 Aug 2022 02:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-02 13:34:02.344180
Title: The alignment problem from a deep learning perspective
Title（参考訳）: 深層学習から見たアライメント問題
Authors: Richard Ngo
Abstract要約: レポートは、アライメント問題に対する懸念を、可能な限り簡潔で具体的で技術的に根ざした方法でカバーすることを目的としています。現実的なトレーニングプロセスは、AGIにおける不整合目標の開発につながる可能性が高い、と私は主張する。 Cotra(2022年)の以前のレポートのように、私は私の主張を、実証的なAGIトレーニングプロセスを参照して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。
参考スコア（独自算出の注目度）: 1.2183405753834562
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Within the coming decades, artificial general intelligence (AGI) may surpass human capabilities at a wide range of important tasks. This report makes a case for why, without substantial action to prevent it, AGIs will likely use their intelligence to pursue goals which are very undesirable (in other words, misaligned) from a human perspective, with potentially catastrophic consequences. The report aims to cover the key arguments motivating concern about the alignment problem in a way that's as succinct, concrete and technically-grounded as possible. I argue that realistic training processes plausibly lead to the development of misaligned goals in AGIs, in particular because neural networks trained via reinforcement learning will learn to plan towards achieving a range of goals; gain more reward by deceptively pursuing misaligned goals; and generalize in ways which undermine obedience. As in an earlier report from Cotra (2022), I explain my claims with reference to an illustrative AGI training process, then outline possible research directions for addressing different aspects of the problem.
Abstract（参考訳）: 今後数十年のうちに、人工知能(agi)は、幅広い重要なタスクで人間の能力を超える可能性がある。この報告書は、それを防ぐための実質的な行動がなければ、AIが人間の視点から非常に望ましくない(言い換えれば、不一致)目標を追求し、破滅的な結果をもたらす可能性がある理由を論じている。報告書は、簡潔で具体的で技術的に根拠のある方法で、アライメントの問題に対する懸念を動機付ける重要な議論をカバーすることを目的としている。特に、強化学習によってトレーニングされたニューラルネットワークは、さまざまな目標を達成するための計画を学ぶだろうし、誤った調整された目標を欺いて追求することでより多くの報酬を得るだろうし、従順性を損なう方法で一般化するからである。 Cotra(2022年)の以前のレポートのように、私の主張は、実証的なAGIトレーニングプロセスに関連して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。

関連論文リスト

Position Paper: Bounded Alignment: What (Not) To Expect From AGI Agents [0.0]
このポジションペーパーの目的は、AIと機械学習(AI/ML)コミュニティにおけるAGIの現在支配的なビジョンが進化する必要がある、と論じることである。この視点の変化は、より現実的な技術観をもたらし、より良い政策決定を可能にします。
論文参考訳（メタデータ） (2025-05-17T06:17:57Z)
"I Am the One and Only, Your Cyber BFF": Understanding the Impact of GenAI Requires Understanding the Impact of Anthropomorphic AI [55.99010491370177]
我々は、人為的AIの社会的影響をマッピングしない限り、生成AIの社会的影響を徹底的にマッピングすることはできないと論じる。人為的AIシステムは、人間のように知覚されるアウトプットを生成する傾向が強まっている。
論文参考訳（メタデータ） (2024-10-11T04:57:41Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
How Far Are We From AGI: Are LLMs All We Need? [15.705756259264932]
AGIは、ヒューマンインテリジェンスに匹敵する効率と有効性で、多様な現実世界のタスクを実行する能力で区別されている。本稿では、AGIに必要な機能フレームワークを概説し、内部、インターフェース、システム次元を統合する。 AIの統合によるユビキタスな影響について、具体的な洞察を得るため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。
論文参考訳（メタデータ） (2024-05-16T17:59:02Z)
Now, Later, and Lasting: Ten Priorities for AI Research, Policy, and Practice [63.20307830884542]
今後数十年は、産業革命に匹敵する人類の転換点になるかもしれない。 10年前に立ち上げられたこのプロジェクトは、複数の専門分野の専門家による永続的な研究にコミットしている。 AI技術の短期的および長期的影響の両方に対処する、アクションのための10のレコメンデーションを提供します。
論文参考訳（メタデータ） (2024-04-06T22:18:31Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文参考訳（メタデータ） (2023-09-05T03:42:46Z)
Concepts is All You Need: A More Direct Path to AGI [0.0]
20年ほど前にAGI(Artificial General Intelligence)という用語が発明されて以来、ほとんど進歩していない。ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。
論文参考訳（メタデータ） (2023-09-04T14:14:41Z)
Why We Don't Have AGI Yet [0.0]
元々のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。このビジョンは、人間と同じように学習し、推論し、問題を解決することができるコンピュータシステムである「シンキングマシン」を構築することである。いくつかの大規模取り組みが名目上AGIに取り組んできたが、純粋に焦点を絞ったAGI開発分野は、十分な資金提供や推進がなされていない。
論文参考訳（メタデータ） (2023-08-07T13:59:31Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文参考訳（メタデータ） (2021-06-26T10:50:07Z)
Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文参考訳（メタデータ） (2021-06-25T22:31:55Z)
Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文参考訳（メタデータ） (2020-04-20T04:07:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。