Fugu-MT 論文翻訳(概要): HILONet: Hierarchical Imitation Learning from Non-Aligned Observations

論文の概要: HILONet: Hierarchical Imitation Learning from Non-Aligned Observations

arxiv url: http://arxiv.org/abs/2011.02671v2
Date: Wed, 23 Jun 2021 04:47:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 12:25:23.329031
Title: HILONet: Hierarchical Imitation Learning from Non-Aligned Observations
Title（参考訳）: HILONet:非アライン観測による階層的模倣学習
Authors: Shanqi Liu, Junjie Cao, Wenzhou Chen, Licheng Wen, Yong Liu
Abstract要約: 非時間的環境における観測のみの軌道から学ぶことは困難である。本稿では,階層的な構造を取り入れ,実現可能なサブゴールを選択する階層的学習手法であるHiLONetを提案する。
参考スコア（独自算出の注目度）: 8.258872189267045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is challenging learning from demonstrated observation-only trajectories in a non-time-aligned environment because most imitation learning methods aim to imitate experts by following the demonstration step-by-step. However, aligned demonstrations are seldom obtainable in real-world scenarios. In this work, we propose a new imitation learning approach called Hierarchical Imitation Learning from Observation(HILONet), which adopts a hierarchical structure to choose feasible sub-goals from demonstrated observations dynamically. Our method can solve all kinds of tasks by achieving these sub-goals, whether it has a single goal position or not. We also present three different ways to increase sample efficiency in the hierarchical structure. We conduct extensive experiments using several environments. The results show the improvement in both performance and learning efficiency.
Abstract（参考訳）: 実演を段階的に追従して専門家を模倣することを目的とした模倣学習手法が多いため,非時間連携環境において実演のみの軌跡から学ぶことは困難である。しかし、実世界でのデモはほとんど得られない。本研究では,ハイロネット(Hierarchical Imitation Learning from Observation, HiLONet)と呼ばれる新しい模倣学習手法を提案する。本手法は,1つのゴール位置の有無に関わらず,これらのサブゴールを達成することで,あらゆる種類のタスクを解決できる。また, 階層構造における試料効率を向上させる3つの方法を提案する。いくつかの環境を用いて広範な実験を行う。その結果,性能と学習効率の両面で改善が見られた。

関連論文リスト

Latent Wasserstein Adversarial Imitation Learning [110.12916356445908]
イミテーションラーニング(IL)は、エージェントがデモンストレーションから学ぶことで専門家の行動を模倣することを可能にする。本稿では,新たな逆転模倣学習フレームワークであるLatent Wasserstein Adrial Imitation Learning (LWAIL)を提案する。提案手法は, 従来のワッサーシュタイン型IL法や, 先行した逆IL法よりも優れていることを示す。
論文参考訳（メタデータ） (2026-03-05T18:01:49Z)
Learning from Demonstrations via Capability-Aware Goal Sampling [12.442790487354742]
Cago(カゴ)は、専門家の軌道への不安定な依存を軽減し、直接の模倣を行うための学習から学ぶ方法である。 Cagoはスパース・リワード・ゴール条件付きタスクの範囲で,サンプル効率と最終性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2026-01-13T17:03:31Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文参考訳（メタデータ） (2023-10-22T11:47:35Z)
Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文参考訳（メタデータ） (2023-10-02T20:53:20Z)
Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文参考訳（メタデータ） (2023-06-13T17:24:37Z)
Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文参考訳（メタデータ） (2023-03-14T12:36:01Z)
Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。 OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文参考訳（メタデータ） (2022-11-13T07:45:06Z)
Inferring Versatile Behavior from Demonstrations by Matching Geometric Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文参考訳（メタデータ） (2022-10-17T16:42:59Z)
Sample Efficient Imitation Learning via Reward Function Trained in Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文参考訳（メタデータ） (2021-11-23T08:06:09Z)
Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-07-16T00:15:18Z)
Seeing Differently, Acting Similarly: Imitation Learning with Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-17T05:44:04Z)
Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文参考訳（メタデータ） (2020-11-23T08:05:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。