論文の概要: LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.01777v1
- Date: Thu, 3 Jun 2021 12:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 21:22:19.839833
- Title: LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning
- Title(参考訳): LiMIIRL:軽量多元逆強化学習
- Authors: Aaron J. Snoswell, Surya P. N. Singh, Nan Ye
- Abstract要約: 多目的逆強化学習は、異なる意図のデモンストレーションを合理化するために報酬関数のアンサンブルを見つけようとする。
特徴空間における実演の事前クラスタリングに基づくウォームスタート戦略を提案する。
また、一般的な期待値差尺度を一般化するMI-IRL性能指標を提案する。
- 参考スコア(独自算出の注目度): 5.1779694507922835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-Intent Inverse Reinforcement Learning (MI-IRL) seeks to find a
reward function ensemble to rationalize demonstrations of different but
unlabelled intents. Within the popular expectation maximization (EM) framework
for learning probabilistic MI-IRL models, we present a warm-start strategy
based on up-front clustering of the demonstrations in feature space. Our
theoretical analysis shows that this warm-start solution produces a
near-optimal reward ensemble, provided the behavior modes satisfy mild
separation conditions. We also propose a MI-IRL performance metric that
generalizes the popular Expected Value Difference measure to directly assesses
learned rewards against the ground-truth reward ensemble. Our metric elegantly
addresses the difficulty of pairing up learned and ground truth rewards via a
min-cost flow formulation, and is efficiently computable. We also develop a
MI-IRL benchmark problem that allows for more comprehensive algorithmic
evaluations. On this problem, we find our MI-IRL warm-start strategy helps
avoid poor quality local minima reward ensembles, resulting in a significant
improvement in behavior clustering. Our extensive sensitivity analysis
demonstrates that the quality of the learned reward ensembles is improved under
various settings, including cases where our theoretical assumptions do not
necessarily hold. Finally, we demonstrate the effectiveness of our methods by
discovering distinct driving styles in a large real-world dataset of driver GPS
trajectories.
- Abstract(参考訳): MI-IRL(Multi-Intent Inverse Reinforcement Learning)は、異なる意図のデモンストレーションを合理化する報酬関数のアンサンブルを求める。
確率的MI-IRLモデルを学習するための一般的な期待最大化(EM)フレームワークの中で,特徴空間における実演の事前クラスタリングに基づくウォームスタート戦略を提案する。
理論解析により, このウォームスタート溶液は, 挙動モードが穏やかな分離条件を満たすならば, ほぼ最適の報酬アンサンブルを生成することが示された。
また,一般的な期待値差尺度を一般化したmi-irlパフォーマンス指標を提案し,接地報酬アンサンブルに対する学習報酬を直接評価する。
提案手法は, 学習と基礎的真理報酬のペアリングの難しさを, ミンコストフローの定式化によって解決し, 効率よく計算可能である。
さらに,より包括的なアルゴリズム評価を可能にするmi-irlベンチマーク問題も開発した。
この問題に対して,MI-IRLウォームスタート戦略は,品質の悪いローカルなミニマ報酬アンサンブルを回避し,行動クラスタリングを大幅に改善する。
広義の感度分析により,理論的な仮定が必ずしも持たない場合を含む,様々な条件下で学習された報酬アンサンブルの品質が向上することが示された。
最後に,ドライバGPSトラジェクトリの大規模実世界のデータセットにおいて,異なる運転スタイルを発見することで,提案手法の有効性を実証する。
関連論文リスト
- Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。