論文の概要: RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
- arxiv url: http://arxiv.org/abs/2601.05241v1
- Date: Thu, 08 Jan 2026 18:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.351215
- Title: RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
- Title(参考訳): RoboVIP:ビジュアルアイデンティティプロンプティングによるマルチビュー映像生成とロボット操作
- Authors: Boyang Wang, Haoran Zhang, Shujie Zhang, Jinkun Hao, Mingda Jia, Qi Lv, Yucheng Mao, Zhaoyang Lyu, Jia Zeng, Xudong Xu, Jiangmiao Pang,
- Abstract要約: 大規模なデータセットから視覚的なアイデンティティプールをキュレートするためのスケーラブルなパイプラインを構築しています。
付加的な操作データを用いて、下流での視覚-言語-アクションとビジュモータポリシーモデルを訓練すると、シミュレーションと実ロボット設定の両方で一貫したパフォーマンス向上が得られる。
- 参考スコア(独自算出の注目度): 38.65727896970541
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The diversity, quantity, and quality of manipulation data are critical for training effective robot policies. However, due to hardware and physical setup constraints, collecting large-scale real-world manipulation data remains difficult to scale across diverse environments. Recent work uses text-prompt conditioned image diffusion models to augment manipulation data by altering the backgrounds and tabletop objects in the visual observations. However, these approaches often overlook the practical need for multi-view and temporally coherent observations required by state-of-the-art policy models. Further, text prompts alone cannot reliably specify the scene setup. To provide the diffusion model with explicit visual guidance, we introduce visual identity prompting, which supplies exemplar images as conditioning inputs to guide the generation of the desired scene setup. To this end, we also build a scalable pipeline to curate a visual identity pool from large robotics datasets. Using our augmented manipulation data to train downstream vision-language-action and visuomotor policy models yields consistent performance gains in both simulation and real-robot settings.
- Abstract(参考訳): 操作データの多様性、量、品質は、効果的なロボットポリシーの訓練に不可欠である。
しかし,ハードウェアや物理的設定の制約により,大規模な実世界の操作データを収集することは困難である。
最近の研究は、テキストプロンプト条件付き画像拡散モデルを用いて、視覚観察における背景とテーブルトップオブジェクトを変更することにより、操作データを強化する。
しかしながら、これらのアプローチは、最先端の政策モデルが要求する、多視点および時間的に一貫性のある観測の実践的必要性をしばしば見落としている。
さらに、テキストプロンプトだけでシーン設定を確実に特定することはできない。
明示的な視覚的誘導を伴う拡散モデルを提案するため、視覚的アイデンティティプロンプトを導入し、条件付け入力として模範画像を提供し、所望のシーン設定の生成を誘導する。
この目的のために,大規模なロボットデータセットから視覚的アイデンティティプールをキュレートする,スケーラブルなパイプラインも構築しています。
付加的な操作データを用いて、下流での視覚-言語-アクションとビジュモータポリシーモデルを訓練すると、シミュレーションと実ロボット設定の両方で一貫したパフォーマンス向上が得られる。
関連論文リスト
- Invariance Co-training for Robot Visual Generalization [72.88252238231269]
多様な観察から推論することは、汎用的なロボットポリシーが幅広い環境で動作するための基本的な能力である。
多様なデータによる協調学習は,既存の生成的拡張法よりも18%向上することを示した。
論文 参考訳(メタデータ) (2025-12-04T20:08:46Z) - EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - ASMR: Augmenting Life Scenario using Large Generative Models for Robotic Action Reflection [21.75681306780917]
本稿では,ロボット支援シナリオにおけるデータ拡張に着目した新しいフレームワークを提案する。
潜在的な会話や環境コンテキストをシミュレートするために、洗練された大きな言語モデルを活用する。
さらに生成されたデータは、最新のマルチモーダルモデルを洗練し、適切なアクションをより正確に決定するのに役立つ。
論文 参考訳(メタデータ) (2025-06-16T19:58:54Z) - ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [23.73409728939164]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。
9.9kのシミュレーションと実際の画像のデータセットを作成し、視覚的シミュレートとリアルのギャップを埋める。
我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善する。
論文 参考訳(メタデータ) (2024-12-13T11:22:01Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。