論文の概要: Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations
- arxiv url: http://arxiv.org/abs/2512.21586v1
- Date: Thu, 25 Dec 2025 09:11:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:07:02.11886
- Title: Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations
- Title(参考訳): ビデオはサンプル効率の良いスーパービジョン:潜在表現による動画からの行動クローン
- Authors: Xin Liu, Haoran Li, Dongbin Zhao,
- Abstract要約: 本稿では,ビデオからの模倣学習を実現するために,遅延表現(BCV-LR)を用いた動画からの行動クローニングを提案する。
BCV-LRは、自己監督タスクを通じて高次元映像入力から行動関連潜伏特徴を抽出する。
我々は、離散制御と連続制御の両方を含む、難易度の高い視覚的タスクのセットについて広範な実験を行う。
- 参考スコア(独自算出の注目度): 22.561305437484975
- License:
- Abstract: Humans can efficiently extract knowledge and learn skills from the videos within only a few trials and errors. However, it poses a big challenge to replicate this learning process for autonomous agents, due to the complexity of visual input, the absence of action or reward signals, and the limitations of interaction steps. In this paper, we propose a novel, unsupervised, and sample-efficient framework to achieve imitation learning from videos (ILV), named Behavior Cloning from Videos via Latent Representations (BCV-LR). BCV-LR extracts action-related latent features from high-dimensional video inputs through self-supervised tasks, and then leverages a dynamics-based unsupervised objective to predict latent actions between consecutive frames. The pre-trained latent actions are fine-tuned and efficiently aligned to the real action space online (with collected interactions) for policy behavior cloning. The cloned policy in turn enriches the agent experience for further latent action finetuning, resulting in an iterative policy improvement that is highly sample-efficient. We conduct extensive experiments on a set of challenging visual tasks, including both discrete control and continuous control. BCV-LR enables effective (even expert-level on some tasks) policy performance with only a few interactions, surpassing state-of-the-art ILV baselines and reinforcement learning methods (provided with environmental rewards) in terms of sample efficiency across 24/28 tasks. To the best of our knowledge, this work for the first time demonstrates that videos can support extremely sample-efficient visual policy learning, without the need to access any other expert supervision.
- Abstract(参考訳): 人間は、数回の試行錯誤で、効率的に知識を抽出し、ビデオからスキルを学ぶことができる。
しかし、視覚入力の複雑さ、行動や報酬信号の欠如、インタラクションステップの制限により、この学習プロセスを自律エージェントに再現することは大きな課題である。
本稿では,ビデオからの模倣学習を実現するための,新しい,教師なし,サンプル効率のフレームワークを提案する。
BCV-LRは、自己教師付きタスクを通じて高次元映像入力から行動関連潜時特徴を抽出し、その後、ダイナミクスに基づく教師なし目的を利用して連続フレーム間の潜時動作を予測する。
事前訓練された潜伏行動は、政策行動のクローンのために、オンラインで(収集された相互作用を伴う)実際の行動空間に微調整され、効率的に整列される。
クローン化されたポリシーは、さらに潜伏したアクションの微調整のためのエージェント体験を豊かにし、結果として、非常にサンプル効率のよい反復的なポリシー改善をもたらす。
我々は、離散制御と連続制御の両方を含む、難易度の高い視覚的タスクのセットについて広範な実験を行う。
BCV-LRは、24/28タスクにまたがるサンプル効率の観点から、最先端のILVベースラインと強化学習法(環境報酬を付与した)を超越した、効果的な(一部のタスクにおいて専門家レベルであっても)政策性能を実現する。
私たちの知る限りでは、この研究は、ビデオが、他の専門家の監督にアクセスすることなく、非常にサンプル効率のよいビジュアルポリシー学習をサポートできることを初めて実証する。
関連論文リスト
- Weakly-supervised VLM-guided Partial Contrastive Learning for Visual Language Navigation [36.17444261325021]
ビジュアル言語ナビゲーション(VLN)は、エージェントが自然言語命令に基づいて複雑な環境をナビゲートできることに焦点を当てた、Embodied AIの分野における基本的なタスクである。
既存の手法は、VLNシナリオの動的視点と競合する視覚知覚のための事前訓練されたバックボーンモデルに依存している。
Weakly-supervised partial Contrastive Learning (WPCL) は, VLMの微調整を必要とせずに, VLNシナリオの動的視点からオブジェクトを識別する能力を高める手法である。
論文 参考訳(メタデータ) (2025-06-18T11:43:50Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Sample-efficient Unsupervised Policy Cloning from Ensemble Self-supervised Labeled Videos [7.827978803804189]
Unsupervised Policy from Ensemble Self-supervised labeled Videos (SV) は、報酬なしにアクションフリーのビデオからポリシーを効率的に学習する新しいフレームワークである。
SVはビデオラベリングモデルをトレーニングし、専門家のビデオで専門家の行動を推測する。
サンプル効率、教師なし、反復的なトレーニングプロセスの後、SVはロバストなビデオラベリングモデルに基づく高度なポリシーを得る。
論文 参考訳(メタデータ) (2024-12-14T10:12:22Z) - Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning [9.240917262195046]
C-LAIfOは、ビデオからの模倣学習のために設計された計算効率の良いアルゴリズムである。
我々は、視覚的相違のある専門家ビデオから模倣の問題を解析する。
我々のアルゴリズムはこの空間内で完全に模倣を行う。
論文 参考訳(メタデータ) (2024-06-18T20:56:18Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。