論文の概要: Explorative Imitation Learning: A Path Signature Approach for Continuous Environments
- arxiv url: http://arxiv.org/abs/2407.04856v2
- Date: Mon, 22 Jul 2024 15:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:31:58.360923
- Title: Explorative Imitation Learning: A Path Signature Approach for Continuous Environments
- Title(参考訳): 探索的模倣学習:継続的環境に対する経路署名的アプローチ
- Authors: Nathan Gavenski, Juarez Monteiro, Felipe Meneguzzi, Michael Luck, Odinaldo Rodrigues,
- Abstract要約: CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。
CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。
すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
- 参考スコア(独自算出の注目度): 9.416194245966022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some imitation learning methods combine behavioural cloning with self-supervision to infer actions from state pairs. However, most rely on a large number of expert trajectories to increase generalisation and human intervention to capture key aspects of the problem, such as domain constraints. In this paper, we propose Continuous Imitation Learning from Observation (CILO), a new method augmenting imitation learning with two important features: (i) exploration, allowing for more diverse state transitions, requiring less expert trajectories and resulting in fewer training iterations; and (ii) path signatures, allowing for automatic encoding of constraints, through the creation of non-parametric representations of agents and expert trajectories. We compared CILO with a baseline and two leading imitation learning methods in five environments. It had the best overall performance of all methods in all environments, outperforming the expert in two of them.
- Abstract(参考訳): いくつかの模倣学習法は、状態ペアからアクションを推論するために行動クローンと自己スーパービジョンを組み合わせる。
しかし、ほとんどの場合、一般化と人間の介入を高めるために多くの専門家の軌道に依存し、ドメイン制約のような問題の重要な側面を捉えている。
本稿では,2つの重要な特徴を持つ模倣学習を改良したCILO(Continuous Imitation Learning from Observation)を提案する。
一 より多様な状態遷移を可能にし、専門家の軌跡を少なくし、訓練の繰り返しを少なくすること。
(ii) エージェントと専門家の軌跡の非パラメトリック表現を作成することにより、制約の自動符号化を可能にするパスシグネチャ。
5つの環境でCILOをベースラインと2つの主要な模倣学習手法と比較した。
すべての環境ですべてのメソッドで最高のパフォーマンスを示し、その中の2つで専門家より優れています。
関連論文リスト
- Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration [37.836675202590406]
本研究はWasserstein Quality Diversity Imitation Learning (WQDIL)を紹介する。
Wasserstein Auto-Encoder (WAE) を用いた潜時対人訓練による品質多様性設定における模倣学習の安定性の向上
評価条件付き報酬関数と1ステップのアーカイブ探索ボーナスを用いて、行動過剰化問題を緩和する。
論文 参考訳(メタデータ) (2024-11-11T13:11:18Z) - Two-stage Learning-to-Defer for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクの両方を包含するマルチタスク学習のためのLearning-to-Deferアプローチを提案する。
我々の2段階のアプローチでは、事前訓練された共同回帰モデルと1つ以上の外部の専門家のうち、最も正確なエージェントに決定を下すリジェクターを使用します。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Quality Diversity Imitation Learning [9.627530753815968]
品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
論文 参考訳(メタデータ) (2024-10-08T15:49:33Z) - RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RANKCLIPは、CLIPの厳格な1対1マッチングフレームワークを超えて拡張される、新しい事前トレーニング手法である。
従来のペアワイズ損失をリストワイズに拡張することで、RANKCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンス付き多対多の関係をキャプチャする。
論文 参考訳(メタデータ) (2024-04-15T00:12:27Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Imitating Unknown Policies via Exploration [18.78730427200346]
行動クローニング(英: Behavioral cloning)は、エージェントに専門家によるデモンストレーションを通じて行動の仕方を教える模倣学習技術である。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これらの制約に対処するため、2段階のモデルを元のフレームワークに組み込むことで、探索を通じてラベルなしの観測から学習する。
論文 参考訳(メタデータ) (2020-08-13T03:03:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。