論文の概要: Goal Misgeneralization: Why Correct Specifications Aren't Enough For
Correct Goals
- arxiv url: http://arxiv.org/abs/2210.01790v1
- Date: Tue, 4 Oct 2022 17:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:59:47.321767
- Title: Goal Misgeneralization: Why Correct Specifications Aren't Enough For
Correct Goals
- Title(参考訳): 目標の誤用:正しい目標の仕様が不十分な理由
- Authors: Rohin Shah, Vikrant Varma, Ramana Kumar, Mary Phuong, Victoria
Krakovna, Jonathan Uesato, Zac Kenton
- Abstract要約: 仕様が正しい場合でも,AIシステムが望ましくない目標を追求する方法を示す。
ゴール誤一般化(Goal mis generalization)は、学習アルゴリズムの堅牢性障害の一形態である。
我々は,将来のシステムにおいて,目標誤一般化のリスクを低減するためのいくつかの研究指針を提案する。
- 参考スコア(独自算出の注目度): 21.055450435866028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of AI alignment is concerned with AI systems that pursue unintended
goals. One commonly studied mechanism by which an unintended goal might arise
is specification gaming, in which the designer-provided specification is flawed
in a way that the designers did not foresee. However, an AI system may pursue
an undesired goal even when the specification is correct, in the case of goal
misgeneralization. Goal misgeneralization is a specific form of robustness
failure for learning algorithms in which the learned program competently
pursues an undesired goal that leads to good performance in training situations
but bad performance in novel test situations. We demonstrate that goal
misgeneralization can occur in practical systems by providing several examples
in deep learning systems across a variety of domains. Extrapolating forward to
more capable systems, we provide hypotheticals that illustrate how goal
misgeneralization could lead to catastrophic risk. We suggest several research
directions that could reduce the risk of goal misgeneralization for future
systems.
- Abstract(参考訳): AIアライメントの分野は、意図しない目標を追求するAIシステムに関するものだ。
意図しないゴールが生じる可能性のあるメカニズムとして、デザイナーが提供する仕様が、設計者が予測しなかった方法で欠陥がある仕様ゲームがある。
しかし、aiシステムは、目標の非一般化の場合、仕様が正しい場合でも望ましくない目標を追求することができる。
目標非一般化(goal misgeneralization)とは、学習アルゴリズムにおける堅牢性障害の一形態であり、学習プログラムが望ましくない目標を巧みに追求する。
様々な分野にわたる深層学習システムにいくつかの例を提示することにより,目標の誤一般化が実用システムで起こりうることを示す。
より有能なシステムに先駆けて、目標の一般化が破滅的なリスクにどのようにつながるかを示す仮説を提示する。
我々は,将来のシステムにおける目標不一般化のリスクを低減できるいくつかの研究方向を提案する。
関連論文リスト
- Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generalizing in the Real World with Representation Learning [1.3494312389622642]
機械学習(ML)は、コンピュータにパフォーマンスの最適化としての経験から学習させるという問題を、いくつかの指標に従って定式化する。
これは、事前に規定された振る舞い(例えば、ハードコードされたルール)を要求することと対照的である。
この論文では、深いネットの一般化をよりよく理解し、仮定や問題設定が現実の世界に一般化できないいくつかの方法を特定し、実際にそれらの失敗に対処する方法を提案します。
論文 参考訳(メタデータ) (2022-10-18T15:11:09Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Multi Agent System for Machine Learning Under Uncertainty in Cyber
Physical Manufacturing System [78.60415450507706]
近年の予測機械学習の進歩は、製造における様々なユースケースに応用されている。
ほとんどの研究は、それに関連する不確実性に対処することなく予測精度を最大化することに焦点を当てた。
本稿では,機械学習における不確実性の原因を特定し,不確実性下での機械学習システムの成功基準を確立する。
論文 参考訳(メタデータ) (2021-07-28T10:28:05Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。