Fugu-MT 論文翻訳(概要): Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

論文の概要: Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

arxiv url: http://arxiv.org/abs/2505.24156v1
Date: Fri, 30 May 2025 03:01:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.739388
Title: Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction
Title（参考訳）: フローベースビデオ予測による汎用的バイマナリファウンデーション政策の実現に向けて
Authors: Chenyou Fan, Fangzheng Yan, Chenjia Bai, Jiepeng Wang, Chi Zhang, Zhen Wang, Xuelong Li,
Abstract要約: 既存のアプローチでは、バイマニュアルポリシーを取得するためにVision-Language-Action(VLA)モデルに依存している。本稿では,ロボットの軌跡を予測するために,主要なテキスト・ビデオ・モデルを微調整することで,新たなバイマニュアル・ファンデーション・ポリシーを提案する。本手法は,単一段階のテキスト・ビデオ予測における言語のあいまいさを軽減し,ロボット・データ要求を大幅に低減する。
参考スコア（独自算出の注目度）: 47.86532300894681
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning a generalizable bimanual manipulation policy is extremely challenging for embodied agents due to the large action space and the need for coordinated arm movements. Existing approaches rely on Vision-Language-Action (VLA) models to acquire bimanual policies. However, transferring knowledge from single-arm datasets or pre-trained VLA models often fails to generalize effectively, primarily due to the scarcity of bimanual data and the fundamental differences between single-arm and bimanual manipulation. In this paper, we propose a novel bimanual foundation policy by fine-tuning the leading text-to-video models to predict robot trajectories and training a lightweight diffusion policy for action generation. Given the lack of embodied knowledge in text-to-video models, we introduce a two-stage paradigm that fine-tunes independent text-to-flow and flow-to-video models derived from a pre-trained text-to-video model. Specifically, optical flow serves as an intermediate variable, providing a concise representation of subtle movements between images. The text-to-flow model predicts optical flow to concretize the intent of language instructions, and the flow-to-video model leverages this flow for fine-grained video prediction. Our method mitigates the ambiguity of language in single-stage text-to-video prediction and significantly reduces the robot-data requirement by avoiding direct use of low-level actions. In experiments, we collect high-quality manipulation data for real dual-arm robot, and the results of simulation and real-world experiments demonstrate the effectiveness of our method.
Abstract（参考訳）: 汎用的なバイマニュアル操作ポリシーの学習は、大きなアクション空間と協調した腕の動きの必要性により、エンボディされたエージェントにとって極めて困難である。既存のアプローチでは、バイマニュアルポリシーを取得するためにVision-Language-Action(VLA)モデルに依存している。しかしながら、シングルアームデータセットや事前訓練されたVLAモデルからの知識の伝達は、主にバイマンガルデータの不足と、シングルアームとバイマンダル操作の根本的な違いのために、効果的に一般化できないことが多い。本稿では,ロボットの軌道を予測し,行動生成のための軽量な拡散ポリシーを訓練するために,主要なテキスト・ビデオモデルを微調整し,新たなバイマニュアル基盤ポリシーを提案する。テキスト・ツー・ビデオモデルに具体的知識が欠如していることを踏まえ,事前に訓練されたテキスト・ツー・ビデオモデルから派生した独立したテキスト・ツー・フローモデルとフロー・ツー・ビデオモデルを微調整する2段階のパラダイムを導入する。具体的には、光学フローは中間変数として機能し、画像間の微妙な動きの簡潔な表現を提供する。テキスト・トゥ・フロー・モデルは、言語命令の意図を増大させるために光フローを予測し、フロー・トゥ・ビデオ・モデルは、このフローを利用してきめ細かなビデオ予測を行う。本手法は,単一段階のテキスト・ビデオ予測における言語のあいまいさを軽減し,低レベル動作の直接使用を避けることにより,ロボットデータ要求を大幅に低減する。実験では,実両腕ロボットの高品質な操作データを収集し,シミュレーションと実世界実験の結果から本手法の有効性を実証した。

関連論文リスト

Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文参考訳（メタデータ） (2025-07-17T08:31:55Z)
AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文参考訳（メタデータ） (2025-06-17T05:31:42Z)
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文参考訳（メタデータ） (2025-04-03T17:38:59Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
論文参考訳（メタデータ） (2024-04-01T09:34:55Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。