論文の概要: Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction
- arxiv url: http://arxiv.org/abs/2505.24156v1
- Date: Fri, 30 May 2025 03:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.739388
- Title: Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction
- Title(参考訳): フローベースビデオ予測による汎用的バイマナリファウンデーション政策の実現に向けて
- Authors: Chenyou Fan, Fangzheng Yan, Chenjia Bai, Jiepeng Wang, Chi Zhang, Zhen Wang, Xuelong Li,
- Abstract要約: 既存のアプローチでは、バイマニュアルポリシーを取得するためにVision-Language-Action(VLA)モデルに依存している。
本稿では,ロボットの軌跡を予測するために,主要なテキスト・ビデオ・モデルを微調整することで,新たなバイマニュアル・ファンデーション・ポリシーを提案する。
本手法は,単一段階のテキスト・ビデオ予測における言語のあいまいさを軽減し,ロボット・データ要求を大幅に低減する。
- 参考スコア(独自算出の注目度): 47.86532300894681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a generalizable bimanual manipulation policy is extremely challenging for embodied agents due to the large action space and the need for coordinated arm movements. Existing approaches rely on Vision-Language-Action (VLA) models to acquire bimanual policies. However, transferring knowledge from single-arm datasets or pre-trained VLA models often fails to generalize effectively, primarily due to the scarcity of bimanual data and the fundamental differences between single-arm and bimanual manipulation. In this paper, we propose a novel bimanual foundation policy by fine-tuning the leading text-to-video models to predict robot trajectories and training a lightweight diffusion policy for action generation. Given the lack of embodied knowledge in text-to-video models, we introduce a two-stage paradigm that fine-tunes independent text-to-flow and flow-to-video models derived from a pre-trained text-to-video model. Specifically, optical flow serves as an intermediate variable, providing a concise representation of subtle movements between images. The text-to-flow model predicts optical flow to concretize the intent of language instructions, and the flow-to-video model leverages this flow for fine-grained video prediction. Our method mitigates the ambiguity of language in single-stage text-to-video prediction and significantly reduces the robot-data requirement by avoiding direct use of low-level actions. In experiments, we collect high-quality manipulation data for real dual-arm robot, and the results of simulation and real-world experiments demonstrate the effectiveness of our method.
- Abstract(参考訳): 汎用的なバイマニュアル操作ポリシーの学習は、大きなアクション空間と協調した腕の動きの必要性により、エンボディされたエージェントにとって極めて困難である。
既存のアプローチでは、バイマニュアルポリシーを取得するためにVision-Language-Action(VLA)モデルに依存している。
しかしながら、シングルアームデータセットや事前訓練されたVLAモデルからの知識の伝達は、主にバイマンガルデータの不足と、シングルアームとバイマンダル操作の根本的な違いのために、効果的に一般化できないことが多い。
本稿では,ロボットの軌道を予測し,行動生成のための軽量な拡散ポリシーを訓練するために,主要なテキスト・ビデオモデルを微調整し,新たなバイマニュアル基盤ポリシーを提案する。
テキスト・ツー・ビデオモデルに具体的知識が欠如していることを踏まえ,事前に訓練されたテキスト・ツー・ビデオモデルから派生した独立したテキスト・ツー・フローモデルとフロー・ツー・ビデオモデルを微調整する2段階のパラダイムを導入する。
具体的には、光学フローは中間変数として機能し、画像間の微妙な動きの簡潔な表現を提供する。
テキスト・トゥ・フロー・モデルは、言語命令の意図を増大させるために光フローを予測し、フロー・トゥ・ビデオ・モデルは、このフローを利用してきめ細かなビデオ予測を行う。
本手法は,単一段階のテキスト・ビデオ予測における言語のあいまいさを軽減し,低レベル動作の直接使用を避けることにより,ロボットデータ要求を大幅に低減する。
実験では,実両腕ロボットの高品質な操作データを収集し,シミュレーションと実世界実験の結果から本手法の有効性を実証した。
関連論文リスト
- Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。