論文の概要: Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.12055v1
- Date: Wed, 18 Oct 2023 15:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:26:15.635919
- Title: Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習における最適輸送理論による後進曖昧さの理解
- Authors: Ali Baheri
- Abstract要約: 逆強化学習(IRL)は、観察された専門家の行動から基礎となる報酬関数を推論することを目的としている。
現在の手法は高次元問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(OT)理論を利用する。
- 参考スコア(独自算出の注目度): 4.8951183832371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In inverse reinforcement learning (IRL), the central objective is to infer
underlying reward functions from observed expert behaviors in a way that not
only explains the given data but also generalizes to unseen scenarios. This
ensures robustness against reward ambiguity where multiple reward functions can
equally explain the same expert behaviors. While significant efforts have been
made in addressing this issue, current methods often face challenges with
high-dimensional problems and lack a geometric foundation. This paper harnesses
the optimal transport (OT) theory to provide a fresh perspective on these
challenges. By utilizing the Wasserstein distance from OT, we establish a
geometric framework that allows for quantifying reward ambiguity and
identifying a central representation or centroid of reward functions. These
insights pave the way for robust IRL methodologies anchored in geometric
interpretations, offering a structured approach to tackle reward ambiguity in
high-dimensional settings.
- Abstract(参考訳): 逆強化学習(irl:inverse reinforcement learning)の中心的な目的は、与えられたデータを説明するだけでなく、目に見えないシナリオにも一般化するように、観察された専門家の行動から報酬関数を推測することである。
これにより、複数の報酬関数が同じ専門家の振る舞いを等しく説明できる、報酬あいまいさに対する堅牢性が保証される。
この問題に対処するために多くの努力がなされているが、現在の手法では高次元の問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(ot)理論を利用する。
OTからワッサーシュタインの距離を利用して、報酬のあいまいさを定量化し、報酬関数の中心表現やセントロイドを特定できる幾何学的枠組みを確立する。
これらの知見は、幾何学的解釈に固定されたロバストIRL方法論の道を開き、高次元設定における報酬のあいまいさに取り組むための構造化されたアプローチを提供する。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。