Fugu-MT 論文翻訳(概要): The alignment problem from a deep learning perspective

論文の概要: The alignment problem from a deep learning perspective

arxiv url: http://arxiv.org/abs/2209.00626v5
Date: Fri, 1 Sep 2023 20:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 11:16:20.360595
Title: The alignment problem from a deep learning perspective
Title（参考訳）: 深層学習から見たアライメント問題
Authors: Richard Ngo, Lawrence Chan, S\"oren Mindermann
Abstract要約: 我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。我々は、AGIの展開が世界における人間のコントロールを不可逆的に損なう可能性について概説する。
参考スコア（独自算出の注目度）: 2.2347125462472746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In coming decades, artificial general intelligence (AGI) may surpass human capabilities at many critical tasks. We argue that, without substantial effort to prevent it, AGIs could learn to pursue goals that conflict (i.e., are misaligned) with human interests. If trained like today's most capable models, AGIs could learn to act deceptively to receive higher reward, learn internally-represented goals which generalize beyond their fine-tuning distributions, and pursue those goals using power-seeking strategies. We review emerging evidence for these properties. AGIs with these properties would be difficult to align and may appear aligned even when they are not. We outline how the deployment of misaligned AGIs might irreversibly undermine human control over the world, and briefly review research directions aimed at preventing this outcome.
Abstract（参考訳）: 今後数十年で、人工知能(agi)は多くの重要なタスクで人間の能力を超える可能性がある。我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。現代の最も有能なモデルのように訓練された場合、AGIは、より高い報酬を得るために欺意的に行動することを学び、微調整された分布を超えて一般化する内部表現された目標を学び、パワー探索戦略を用いてそれらの目標を追求することができる。これらの特性の新たな証拠をレビューする。これらの特性を持つAGIは整列が難しく、そうでない場合でも整列する可能性がある。我々は,agisの展開が世界における人間の制御を不可逆的に損なう可能性があることを概説し,この成果を未然に防ぐための研究指針を簡潔に検討する。

関連論文リスト

Position Paper: Bounded Alignment: What (Not) To Expect From AGI Agents [0.0]
このポジションペーパーの目的は、AIと機械学習(AI/ML)コミュニティにおけるAGIの現在支配的なビジョンが進化する必要がある、と論じることである。この視点の変化は、より現実的な技術観をもたらし、より良い政策決定を可能にします。
論文参考訳（メタデータ） (2025-05-17T06:17:57Z)
"I Am the One and Only, Your Cyber BFF": Understanding the Impact of GenAI Requires Understanding the Impact of Anthropomorphic AI [55.99010491370177]
我々は、人為的AIの社会的影響をマッピングしない限り、生成AIの社会的影響を徹底的にマッピングすることはできないと論じる。人為的AIシステムは、人間のように知覚されるアウトプットを生成する傾向が強まっている。
論文参考訳（メタデータ） (2024-10-11T04:57:41Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
How Far Are We From AGI: Are LLMs All We Need? [15.705756259264932]
AGIは、ヒューマンインテリジェンスに匹敵する効率と有効性で、多様な現実世界のタスクを実行する能力で区別されている。本稿では、AGIに必要な機能フレームワークを概説し、内部、インターフェース、システム次元を統合する。 AIの統合によるユビキタスな影響について、具体的な洞察を得るため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。
論文参考訳（メタデータ） (2024-05-16T17:59:02Z)
Now, Later, and Lasting: Ten Priorities for AI Research, Policy, and Practice [63.20307830884542]
今後数十年は、産業革命に匹敵する人類の転換点になるかもしれない。 10年前に立ち上げられたこのプロジェクトは、複数の専門分野の専門家による永続的な研究にコミットしている。 AI技術の短期的および長期的影響の両方に対処する、アクションのための10のレコメンデーションを提供します。
論文参考訳（メタデータ） (2024-04-06T22:18:31Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文参考訳（メタデータ） (2023-09-05T03:42:46Z)
Concepts is All You Need: A More Direct Path to AGI [0.0]
20年ほど前にAGI(Artificial General Intelligence)という用語が発明されて以来、ほとんど進歩していない。ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。
論文参考訳（メタデータ） (2023-09-04T14:14:41Z)
Why We Don't Have AGI Yet [0.0]
元々のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。このビジョンは、人間と同じように学習し、推論し、問題を解決することができるコンピュータシステムである「シンキングマシン」を構築することである。いくつかの大規模取り組みが名目上AGIに取り組んできたが、純粋に焦点を絞ったAGI開発分野は、十分な資金提供や推進がなされていない。
論文参考訳（メタデータ） (2023-08-07T13:59:31Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文参考訳（メタデータ） (2021-06-26T10:50:07Z)
Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文参考訳（メタデータ） (2021-06-25T22:31:55Z)
Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文参考訳（メタデータ） (2020-04-20T04:07:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。