論文の概要: Zero-shot Imitation Learning by Latent Topology Mapping
- arxiv url: http://arxiv.org/abs/2605.08450v1
- Date: Fri, 08 May 2026 20:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.653871
- Title: Zero-shot Imitation Learning by Latent Topology Mapping
- Title(参考訳): ラテントトポロジマッピングによるゼロショット模倣学習
- Authors: Maxwell J. Jacobson, Yexiang Xue,
- Abstract要約: 固定された実演データセットが有用な振る舞いを含む長期的目標条件設定について検討するが、エージェントが解決しなければならないすべてのタスクの完全な例ではない。
既存の模倣学習手法は、実証から強力なポリシーを学ぶことができるが、長距離タスクを解く際には、長い原始的行動軌跡の上に小さなエラーが蓄積され、新しいタスクへのゼロショット適応が信頼できない。
ZALT (Zero-shot Agents from Latent Topologies) は、学習中に示されるもの以上の未確認のスタートゴールタスクを解決する模倣学習手法である。
- 参考スコア(独自算出の注目度): 18.335598046913418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is effective for training agents when expert demonstrations are available, but collecting demonstrations for every complex task in an environment is costly. We study the long-horizon, goal-conditioned setting where a fixed demonstration dataset contains useful behavior, but not complete examples for every task the agent must solve. Existing imitation learning methods can learn strong policies from demonstrations, but when solving long-horizon tasks, small errors accumulate over long primitive-action trajectories and make zero-shot adaptation to new tasks unreliable. We introduce Zero-shot Agents from Latent Topologies (ZALT), an imitation-learning method that solves unseen start-goal tasks beyond those demonstrated during training. ZALT identifies latent hub states where trajectories converge or diverge, learns policies and a dynamics model over hub-to-hub transitions, and plans over the hub topology to complete new tasks. This topology makes demonstrated behaviors explicitly composable while compressing long tasks into shorter sequences of abstract transitions -- combined, these enable ZALT to perform zero-shot adaptation. In a complex 3D maze environment, ZALT achieves 55% zero-shot success on unseen tasks, compared to 6% for the strongest baseline.
- Abstract(参考訳): シミュレーション学習は、専門家によるデモンストレーションが利用可能である場合、訓練エージェントに効果があるが、環境内の複雑なタスクのすべてのデモを収集するにはコストがかかる。
固定された実演データセットが有用な振る舞いを含む長期的目標条件設定について検討するが、エージェントが解決しなければならないすべてのタスクの完全な例ではない。
既存の模倣学習手法は、実証から強力なポリシーを学ぶことができるが、長距離タスクを解く際には、長い原始的行動軌跡の上に小さなエラーが蓄積され、新しいタスクへのゼロショット適応が信頼できない。
ZALT (Zero-shot Agents from Latent Topologies) は、学習中に示されるもの以上の未確認のスタートゴールタスクを解決する模倣学習手法である。
ZALTは、軌道が収束または分岐する潜在ハブ状態を特定し、ハブ-ハブ遷移に関するポリシーとダイナミックスモデルを学び、ハブトポロジを計画して新しいタスクを完了させる。
このトポロジは、長いタスクを抽象的な遷移の短いシーケンスに圧縮しながら、明示的に構成可能であり、それによってZALTはゼロショット適応を実行することができる。
複雑な3D迷路環境では、ZALTは最強のベースラインの6%に比べて、目に見えないタスクで55%のゼロショット成功を達成する。
関連論文リスト
- Learning from Demonstrations via Capability-Aware Goal Sampling [12.442790487354742]
Cago(カゴ)は、専門家の軌道への不安定な依存を軽減し、直接の模倣を行うための学習から学ぶ方法である。
Cagoはスパース・リワード・ゴール条件付きタスクの範囲で,サンプル効率と最終性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-01-13T17:03:31Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - GenPlan: Generative Sequence Models as Adaptive Planners [0.0]
シーケンスモデルは、以前に収集されたデモを活用することで、行動計画において顕著な成功を収めた。
しかし、特にプランナーが目に見えない制約やタスクに適応しなければならない場合、マルチタスクミッションの解決は重要な課題である。
本稿では,適応型プランナのための離散フローモデルGenPlanを提案する。
論文 参考訳(メタデータ) (2024-12-11T17:32:33Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Wish you were here: Hindsight Goal Selection for long-horizon dexterous
manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。
既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。
実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文 参考訳(メタデータ) (2021-12-01T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。