論文の概要: Learning Skills from Action-Free Videos
- arxiv url: http://arxiv.org/abs/2512.20052v1
- Date: Tue, 23 Dec 2025 05:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.750624
- Title: Learning Skills from Action-Free Videos
- Title(参考訳): アクションフリービデオから学ぶスキル
- Authors: Hung-Chieh Fang, Kuo-Han Hung, Chu-Rong Chen, Po-Jung Chou, Chun-Kai Yang, Po-Chen Ko, Yu-Chiang Wang, Yueh-Hua Wu, Min-Hung Chen, Shao-Hua Sun,
- Abstract要約: 我々は,アクションフリービデオから潜在スキルを学ぶためのフレームワークであるSkill Abstraction from Optical Flow (SOF)を紹介した。
SOFは、ビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。
実験により,マルチタスクとロングホライズン設定の両方において,提案手法は一貫して性能を向上することが示された。
- 参考スコア(独自算出の注目度): 20.442392109789772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from videos offers a promising path toward generalist robots by providing rich visual and temporal priors beyond what real robot datasets contain. While existing video generative models produce impressive visual predictions, they are difficult to translate into low-level actions. Conversely, latent-action models better align videos with actions, but they typically operate at the single-step level and lack high-level planning capabilities. We bridge this gap by introducing Skill Abstraction from Optical Flow (SOF), a framework that learns latent skills from large collections of action-free videos. Our key idea is to learn a latent skill space through an intermediate representation based on optical flow that captures motion information aligned with both video dynamics and robot actions. By learning skills in this flow-based latent space, SOF enables high-level planning over video-derived skills and allows for easier translation of these skills into actions. Experiments show that our approach consistently improves performance in both multitask and long-horizon settings, demonstrating the ability to acquire and compose skills directly from raw visual data.
- Abstract(参考訳): ビデオから学ぶことは、実際のロボットデータセットが持つものを超えた、豊かな視覚的および時間的事前情報を提供することで、汎用ロボットへの有望な道を提供する。
既存のビデオ生成モデルは印象的な視覚的予測を生成するが、低レベルのアクションに変換することは困難である。
逆に、潜在アクションモデルでは、ビデオとアクションの整合性が向上するが、通常はシングルステップレベルで動作し、高いレベルの計画能力が欠如している。
我々は、アクションフリービデオの大規模なコレクションから潜伏スキルを学ぶフレームワークであるSkill Abstraction from Optical Flow (SOF)を導入することで、このギャップを埋める。
我々のキーとなるアイデアは、映像力学とロボット動作の両方に適合した動き情報をキャプチャする光学フローに基づく中間表現を通して潜伏するスキル空間を学習することである。
このフローベースの潜伏空間におけるスキルの学習により、SOFはビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。
実験により,本手法はマルチタスクとロングホライゾンの双方で常に性能を向上し,生の視覚データから直接スキルを習得・構成する能力を示す。
関連論文リスト
- VideoVLA: Video Generators Can Be Generalizable Robot Manipulators [86.70243911696616]
ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。
本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
論文 参考訳(メタデータ) (2025-12-07T18:57:15Z) - ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow [4.2766838326810355]
教師なし大規模ビデオデータから事前ラベル付き表現を学習するフレームワークであるViSA-Flowを提案する。
まず、大規模人-物間相互作用ビデオデータから、生成訓練された意味行動の流れを自動的に抽出する。
第2に、この前者は、同じセマンティック抽象化パイプラインで処理された小さなロボットのデモセットを微調整することで、ターゲットロボットに効率的に適応する。
論文 参考訳(メタデータ) (2025-05-02T14:03:06Z) - SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである
本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。
我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文 参考訳(メタデータ) (2025-04-01T08:20:55Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [101.26467307473638]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。