論文の概要: RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping
- arxiv url: http://arxiv.org/abs/2506.08632v1
- Date: Tue, 10 Jun 2025 09:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.254195
- Title: RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping
- Title(参考訳): RoboSwap: 教師なしのロボットアームスワッピングのためのGAN駆動型ビデオ拡散フレームワーク
- Authors: Yang Bai, Liudi Yang, George Eskandar, Fengyi Shen, Dong Chen, Mohammad Altillawi, Ziyuan Liu, Gitta Kutyniok,
- Abstract要約: RoboSwapは多様な環境からの未ペアデータで動作する。
私たちはロボットアームを彼らのバックグラウンドから切り離し、片方のロボットアームをもう片方のロボットアームに翻訳するために、無人のGANモデルを訓練します。
実験の結果,RoboSwapは3つのベンチマークで最先端のビデオや画像編集モデルより優れていることがわかった。
- 参考スコア(独自算出の注目度): 26.010205882976624
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in generative models have revolutionized video synthesis and editing. However, the scarcity of diverse, high-quality datasets continues to hinder video-conditioned robotic learning, limiting cross-platform generalization. In this work, we address the challenge of swapping a robotic arm in one video with another: a key step for crossembodiment learning. Unlike previous methods that depend on paired video demonstrations in the same environmental settings, our proposed framework, RoboSwap, operates on unpaired data from diverse environments, alleviating the data collection needs. RoboSwap introduces a novel video editing pipeline integrating both GANs and diffusion models, combining their isolated advantages. Specifically, we segment robotic arms from their backgrounds and train an unpaired GAN model to translate one robotic arm to another. The translated arm is blended with the original video background and refined with a diffusion model to enhance coherence, motion realism and object interaction. The GAN and diffusion stages are trained independently. Our experiments demonstrate that RoboSwap outperforms state-of-the-art video and image editing models on three benchmarks in terms of both structural coherence and motion consistency, thereby offering a robust solution for generating reliable, cross-embodiment data in robotic learning.
- Abstract(参考訳): 生成モデルの最近の進歩は、ビデオ合成と編集に革命をもたらした。
しかし、多様な高品質データセットの不足は、ビデオ条件付きロボット学習を妨げ続け、クロスプラットフォームの一般化を制限している。
本研究では,ロボットアームを別のビデオに置き換えることの課題に対処する。
同じ環境下でのペアビデオのデモに依存する従来の方法とは異なり、提案するフレームワークであるRoboSwapは、さまざまな環境からの不正なデータを運用し、データ収集のニーズを緩和します。
RoboSwapは、GANと拡散モデルを統合する新しいビデオ編集パイプラインを導入し、それらの分離されたアドバンテージを組み合わせた。
具体的には、ロボットアームを背景から切り離し、無人のGANモデルを訓練して、ロボットアームを別のロボットアームに翻訳する。
翻訳されたアームは、元のビデオ背景とブレンドされ、コヒーレンス、モーションリアリズム、オブジェクトインタラクションを強化するために拡散モデルで洗練される。
GANと拡散段階は独立して訓練される。
実験の結果,RoboSwapは構造的コヒーレンスと運動の整合性の両方の観点から,3つのベンチマークで最先端のビデオや画像の編集モデルより優れており,ロボット学習において信頼性の高いクロスエボディメントデータを生成するための堅牢なソリューションを提供することがわかった。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer [33.178540405656676]
RoboTransferは、ロボットデータ合成のための拡散ベースのビデオ生成フレームワークである。
背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
RoboTransferは、幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
論文 参考訳(メタデータ) (2025-05-29T07:10:03Z) - DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [18.083105886634115]
TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。
それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。
リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-14T14:09:31Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。