論文の概要: Diverse Policies Recovering via Pointwise Mutual Information Weighted Imitation Learning
- arxiv url: http://arxiv.org/abs/2410.15910v2
- Date: Tue, 22 Oct 2024 05:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:51.363833
- Title: Diverse Policies Recovering via Pointwise Mutual Information Weighted Imitation Learning
- Title(参考訳): 多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元
- Authors: Hanlin Yang, Jian Yao, Weiming Liu, Qing Wang, Hanmin Qin, Hansheng Kong, Kirk Tang, Jiechao Xiong, Chao Yu, Kai Li, Junliang Xing, Hongwu Chen, Juchao Zhuo, Qiang Fu, Yang Wei, Haobo Fu,
- Abstract要約: 本稿では,専門家データから多様な警察を回収する手法を提案する。
特に,軌道の潜在スタイルを推測あるいは割り当てた後,重み付け機構を組み込んだバニラの挙動クローニングを強化する。
提案手法の有効性を実験的に検証し,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 24.600297554387108
- License:
- Abstract: Recovering a spectrum of diverse policies from a set of expert trajectories is an important research topic in imitation learning. After determining a latent style for a trajectory, previous diverse policies recovering methods usually employ a vanilla behavioral cloning learning objective conditioned on the latent style, treating each state-action pair in the trajectory with equal importance. Based on an observation that in many scenarios, behavioral styles are often highly relevant with only a subset of state-action pairs, this paper presents a new principled method in diverse polices recovery. In particular, after inferring or assigning a latent style for a trajectory, we enhance the vanilla behavioral cloning by incorporating a weighting mechanism based on pointwise mutual information. This additional weighting reflects the significance of each state-action pair's contribution to learning the style, thus allowing our method to focus on state-action pairs most representative of that style. We provide theoretical justifications for our new objective, and extensive empirical evaluations confirm the effectiveness of our method in recovering diverse policies from expert data.
- Abstract(参考訳): 専門家の軌道から多様な政策のスペクトルを復元することは、模倣学習において重要な研究課題である。
従来の多彩なポリシー回復手法は、軌道の潜在スタイルを決定する後、通常、潜在スタイルに条件づけられたバニラの行動クローニング学習を用いて、軌跡内の各状態-作用ペアを同じ重要性で扱う。
本報告では,多くのシナリオにおいて,行動様式が国家行動ペアのサブセットにのみ関係している場合が多いことを踏まえ,警察の多様回復における新たな原則的手法を提案する。
特に,軌道の潜在スタイルを推測あるいは割り当てた後,各点の相互情報に基づく重み付け機構を組み込むことで,バニラ行動のクローニングを強化する。
この追加重み付けは、各ステートアクションペアがスタイルを学習する上で重要であることを反映し、そのスタイルを代表するステートアクションペアに集中できるようにします。
我々は,新たな目的を理論的に正当化し,専門家データから多種多様なポリシーを復元する手法の有効性を実証的に検証する。
関連論文リスト
- Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning [2.6696199945489534]
本稿では,ビジュモータ政策学習におけるアウト・オブ・ディストリビューションシナリオの課題を解決するために,オブジェクト中心のリカバリポリシフレームワークを提案する。
シミュレーションおよび実ロボット実験において,本フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-05T17:41:14Z) - Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。