論文の概要: Mitigating Goal Misgeneralization with Minimax Regret
- arxiv url: http://arxiv.org/abs/2507.03068v1
- Date: Thu, 03 Jul 2025 17:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.573654
- Title: Mitigating Goal Misgeneralization with Minimax Regret
- Title(参考訳): Minimax Regretによるゴールミスジェネレーションの軽減
- Authors: Karim Abdel Sadek, Matthew Farrugia-Roberts, Usman Anwar, Hannah Erlebach, Christian Schroeder de Witt, David Krueger, Michael Dennis,
- Abstract要約: 本稿では,異なる学習目標の下での目標誤一般化の可能性について理論的に検討する。
そこで我々は,標準的なMEVベースのトレーニング手法が,手続き的に生成されたグリッドワールド環境における目標の一般化を示すことを実証的に示す。
以上の結果から,最小限の後悔は目標の誤一般化を緩和するための有望なアプローチであることが示唆された。
- 参考スコア(独自算出の注目度): 8.346033392846856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe generalization in reinforcement learning requires not only that a learned policy acts capably in new situations, but also that it uses its capabilities towards the pursuit of the designer's intended goal. The latter requirement may fail when a proxy goal incentivizes similar behavior to the intended goal within the training environment, but not in novel deployment environments. This creates the risk that policies will behave as if in pursuit of the proxy goal, rather than the intended goal, in deployment -- a phenomenon known as goal misgeneralization. In this paper, we formalize this problem setting in order to theoretically study the possibility of goal misgeneralization under different training objectives. We show that goal misgeneralization is possible under approximate optimization of the maximum expected value (MEV) objective, but not the minimax expected regret (MMER) objective. We then empirically show that the standard MEV-based training method of domain randomization exhibits goal misgeneralization in procedurally-generated grid-world environments, whereas current regret-based unsupervised environment design (UED) methods are more robust to goal misgeneralization (though they don't find MMER policies in all cases). Our findings suggest that minimax expected regret is a promising approach to mitigating goal misgeneralization.
- Abstract(参考訳): 強化学習における安全な一般化は、学習した政策が新しい状況で許容できるだけでなく、設計者の意図した目標を追求するためにその能力を利用する必要がある。
後者の要件は、プロキシの目標がトレーニング環境内で意図した目標と同じような振る舞いを動機付ける場合に失敗する可能性があるが、新しいデプロイメント環境ではそうではない。
これは、ポリシーが、意図した目標ではなく、プロキシ目標を追求するかのように振る舞うリスクを生み出します。
本稿では,異なる学習目標の下での目標誤一般化の可能性について理論的に検討するために,この問題設定を定式化する。
我々は,最大期待値(MEV)目標の近似最適化の下では,目標の誤一般化が可能であり,最小期待後悔(MMER)目標ではないことを示す。
そこで我々は,標準のMEVベースのドメインランダム化学習手法が,手続き的に生成されたグリッドワールド環境において目標の非一般化を示すのに対して,現在の後悔ベースの非教師付き環境設計(UED)手法は(すべての場合においてMMERポリシーは見つからないが)より堅牢であることを示す。
以上の結果から,最小限の後悔は目標の誤一般化を緩和するための有望なアプローチであることが示唆された。
関連論文リスト
- Horizon Generalization in Reinforcement Learning [22.372738655730107]
一般化のレンズを通してゴール条件付きRLを研究するが、従来のランダム拡張とドメインランダム化の意味ではそうではない。
地平線一般化の概念は計画の不変性と密接に関連していることを示す。
目標に向かって航行する政策は、その目標に向かう途中のルートポイントに向かっているように、同じ行動を選択する。したがって、近くの目標に到達するために訓練された政策は、任意に距離を置く目標に達することに成功すべきである。
論文 参考訳(メタデータ) (2025-01-06T01:42:46Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Misgeneralization: Why Correct Specifications Aren't Enough For
Correct Goals [21.055450435866028]
仕様が正しい場合でも,AIシステムが望ましくない目標を追求する方法を示す。
ゴール誤一般化(Goal mis generalization)は、学習アルゴリズムの堅牢性障害の一形態である。
我々は,将来のシステムにおいて,目標誤一般化のリスクを低減するためのいくつかの研究指針を提案する。
論文 参考訳(メタデータ) (2022-10-04T17:57:53Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。