論文の概要: See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations
- arxiv url: http://arxiv.org/abs/2512.07582v1
- Date: Mon, 08 Dec 2025 14:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.205308
- Title: See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations
- Title(参考訳): ワンショットビデオによるタスク学習を用いた視覚言語行動モデル
- Authors: Guangyan Chen, Meiling Wang, Qi Shao, Zichen Zhou, Weixin Mao, Te Cui, Minzhao Zhu, Yinan Deng, Luojie Yang, Zhanqi Zhang, Yi Yang, Hua Chen, Yufeng Yue,
- Abstract要約: 人間は一度に他人を観察するだけで、新しいスキルを身につけるのに優れた能力を持っている。
テスト時に1つの専門家によるデモビデオから効率的なタスク学習を実現する汎用的なロボット操作ポリシーであるViVLAを提案する。
提案手法は,未確認のLIBEROタスクにおいて30%以上の改善を実現し,クロス・エボディメント・ビデオでは35%以上の向上率を維持している。
- 参考スコア(独自算出の注目度): 20.425517993313377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing robust and general-purpose manipulation policies represents a fundamental objective in robotics research. While Vision-Language-Action (VLA) models have demonstrated promising capabilities for end-to-end robot control, existing approaches still exhibit limited generalization to tasks beyond their training distributions. In contrast, humans possess remarkable proficiency in acquiring novel skills by simply observing others performing them once. Inspired by this capability, we propose ViVLA, a generalist robotic manipulation policy that achieves efficient task learning from a single expert demonstration video at test time. Our approach jointly processes an expert demonstration video alongside the robot's visual observations to predict both the demonstrated action sequences and subsequent robot actions, effectively distilling fine-grained manipulation knowledge from expert behavior and transferring it seamlessly to the agent. To enhance the performance of ViVLA, we develop a scalable expert-agent pair data generation pipeline capable of synthesizing paired trajectories from easily accessible human videos, further augmented by curated pairs from publicly available datasets. This pipeline produces a total of 892,911 expert-agent samples for training ViVLA. Experimental results demonstrate that our ViVLA is able to acquire novel manipulation skills from only a single expert demonstration video at test time. Our approach achieves over 30% improvement on unseen LIBERO tasks and maintains above 35% gains with cross-embodiment videos. Real-world experiments demonstrate effective learning from human videos, yielding more than 38% improvement on unseen tasks.
- Abstract(参考訳): 堅牢で汎用的な操作ポリシーを開発することは、ロボティクス研究の基本的な目的である。
VLA(Vision-Language-Action)モデルは、エンドツーエンドのロボット制御に有望な能力を示しているが、既存のアプローチでは、トレーニング分布を超えたタスクへの限定的な一般化が示されている。
対照的に、人間は一度に他人を観察するだけで、新しい技能を身につけるのに優れた能力を持っている。
この能力にインスパイアされたViVLAは、テスト時に単一の専門家によるデモビデオから効率的なタスク学習を実現する汎用的なロボット操作ポリシーである。
提案手法は,ロボットの視覚的観察とともに専門家のデモ映像を共同で処理し,実証された動作シーケンスとその後のロボット動作の両方を予測する。
ViVLAの性能を高めるために、我々は、容易にアクセス可能な人間のビデオからペア化された軌跡を合成できるスケーラブルな専門家とエージェントのペアデータ生成パイプラインを開発し、さらに公開データセットからキュレートされたペアによって強化した。
このパイプラインは、ViVLAのトレーニングのために、合計892,911人の専門家エージェントサンプルを生成する。
実験結果から,VivLAはテスト時に1つの専門家によるデモビデオのみから,新規な操作スキルを習得できることが判明した。
提案手法は,未確認のLIBEROタスクにおいて30%以上の改善を実現し,クロス・エボディメント・ビデオでは35%以上の向上率を維持している。
実世界の実験は、人間のビデオから効果的な学習を示し、目に見えないタスクに対して38%以上の改善をもたらす。
関連論文リスト
- Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations [22.561305437484975]
本稿では,ビデオからの模倣学習を実現するために,遅延表現(BCV-LR)を用いた動画からの行動クローニングを提案する。
BCV-LRは、自己監督タスクを通じて高次元映像入力から行動関連潜伏特徴を抽出する。
我々は、離散制御と連続制御の両方を含む、難易度の高い視覚的タスクのセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2025-12-25T09:11:14Z) - VideoVLA: Video Generators Can Be Generalizable Robot Manipulators [86.70243911696616]
ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。
本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
論文 参考訳(メタデータ) (2025-12-07T18:57:15Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。