論文の概要: Towards Generalisable Imitation Learning Through Conditioned Transition Estimation and Online Behaviour Alignment
- arxiv url: http://arxiv.org/abs/2601.17563v1
- Date: Sat, 24 Jan 2026 19:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.926401
- Title: Towards Generalisable Imitation Learning Through Conditioned Transition Estimation and Online Behaviour Alignment
- Title(参考訳): 条件付き遷移推定とオンライン行動アライメントによる一般化可能な模倣学習に向けて
- Authors: Nathan Gavenski, Matteo Leonetti, Odinaldo Rodrigues,
- Abstract要約: 近年,観察法 (ILfO) による模倣学習が進歩している。
彼らは行動に基づく監督的最適化を必要とし、状態が一つの最適な行動を持ち、実際の環境状態を十分に考慮せずに教師の行動を適用する傾向があると仮定する。
これらの制限に対処するUnsupervised Learning from Observation (UfO)を提案する。
- 参考スコア(独自算出の注目度): 3.5251351317447686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art imitation learning from observation methods (ILfO) have recently made significant progress, but they still have some limitations: they need action-based supervised optimisation, assume that states have a single optimal action, and tend to apply teacher actions without full consideration of the actual environment state. While the truth may be out there in observed trajectories, existing methods struggle to extract it without supervision. In this work, we propose Unsupervised Imitation Learning from Observation (UfO) that addresses all of these limitations. UfO learns a policy through a two-stage process, in which the agent first obtains an approximation of the teacher's true actions in the observed state transitions, and then refines the learned policy further by adjusting agent trajectories to closely align them with the teacher's. Experiments we conducted in five widely used environments show that UfO not only outperforms the teacher and all other ILfO methods but also displays the smallest standard deviation. This reduction in standard deviation indicates better generalisation in unseen scenarios.
- Abstract(参考訳): 観察法(ILfO)からの最先端の模倣学習は、近年大きな進歩を遂げているが、それでもいくつかの制限がある: 行動に基づく教師による最適化が必要であり、状態が一つの最適な行動であると考え、実際の環境状態を十分に考慮せずに教師の行動を適用する傾向がある。
真実は観測された軌跡にあるかもしれないが、既存の方法では監督なしにそれを抽出するのは難しい。
本研究では,これらの制限に対処するUnsupervised Imitation Learning from Observation (UfO)を提案する。
UfOは、エージェントが観察された状態遷移における教師の真の行動の近似を最初に取得する2段階のプロセスを通じてポリシーを学習し、その後、エージェントの軌跡を調整して教師の行動と密接に一致させることにより、学習されたポリシーをさらに洗練する。
5つの広く利用されている環境で行った実験では、UfOは教師や他の全てのILfOメソッドより優れているだけでなく、最小の標準偏差も示している。
この標準偏差の減少は、目に見えないシナリオにおけるより良い一般化を示している。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。