論文の概要: ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents
- arxiv url: http://arxiv.org/abs/2507.17462v1
- Date: Wed, 23 Jul 2025 12:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.99038
- Title: ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents
- Title(参考訳): ERMV:エンボディエージェント強化のための4Dロボット多視点画像の編集
- Authors: Chang Nie, Guangming Wang, Zhe Lie, Hesheng Wang,
- Abstract要約: ERMV(Robotic Multi-View 4D data framework)は、単一フレームの編集とロボットの状態条件に基づいて、全マルチビューシーケンスを効率的に編集する。
創発されたデータは、シミュレーションと実世界の両方の環境でモデルの堅牢性とガイダンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 14.75400720374728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot imitation learning relies on 4D multi-view sequential images. However, the high cost of data collection and the scarcity of high-quality data severely constrain the generalization and application of embodied intelligence policies like Vision-Language-Action (VLA) models. Data augmentation is a powerful strategy to overcome data scarcity, but methods for editing 4D multi-view sequential images for manipulation tasks are currently lacking. Thus, we propose ERMV (Editing Robotic Multi-View 4D data), a novel data augmentation framework that efficiently edits an entire multi-view sequence based on single-frame editing and robot state conditions. This task presents three core challenges: (1) maintaining geometric and appearance consistency across dynamic views and long time horizons; (2) expanding the working window with low computational costs; and (3) ensuring the semantic integrity of critical objects like the robot arm. ERMV addresses these challenges through a series of innovations. First, to ensure spatio-temporal consistency in motion blur, we introduce a novel Epipolar Motion-Aware Attention (EMA-Attn) mechanism that learns pixel shift caused by movement before applying geometric constraints. Second, to maximize the editing working window, ERMV pioneers a Sparse Spatio-Temporal (STT) module, which decouples the temporal and spatial views and remodels a single-frame multi-view problem through sparse sampling of the views to reduce computational demands. Third, to alleviate error accumulation, we incorporate a feedback intervention Mechanism, which uses a Multimodal Large Language Model (MLLM) to check editing inconsistencies and request targeted expert guidance only when necessary. Extensive experiments demonstrate that ERMV-augmented data significantly boosts the robustness and generalization of VLA models in both simulated and real-world environments.
- Abstract(参考訳): ロボット模倣学習は4次元多視点シーケンシャルイメージに依存している。
しかし、高コストのデータ収集と高品質なデータの不足は、ビジョン・ランゲージ・アクション(VLA)モデルのような具体的インテリジェンスポリシーの一般化と適用を厳しく制限している。
データ拡張はデータの不足を克服するための強力な戦略であるが、現在、操作タスクのための4Dマルチビューシーケンシャル画像の編集方法が不足している。
そこで我々は,単一フレーム編集とロボットの状態条件に基づいて,全マルチビューシーケンスを効率よく編集する新しいデータ拡張フレームワークであるERMV(Editing Robotic Multi-View 4D data)を提案する。
本課題は,(1)動的視界と長期地平線を横断する幾何学的・外観的整合性を維持すること,(2)低計算コストで作業窓を広げること,(3)ロボットアームのような重要な物体のセマンティックな整合性を確保すること,の3つの課題を提示する。
ERMVは一連のイノベーションを通じてこれらの課題に対処する。
まず,動きのぼかしにおける時空間整合性を確保するために,幾何的制約を適用する前に動きによって生じる画素シフトを学習するEMA-Attn機構を導入する。
第2に、編集作業ウィンドウを最大化するために、ERMVはスパース時空間(STT)モジュールを開拓し、時間的・空間的なビューを分離し、ビューのスパースサンプリングを通じて単一フレームのマルチビュー問題をモデル化し、計算要求を減らす。
第3に,誤りの蓄積を軽減するため,MLLM(Multimodal Large Language Model)を用いたフィードバック介入機構を導入し,編集の不整合をチェックするとともに,必要な時にのみ目標とする専門家指導を要求する。
大規模な実験により、ERMVの拡張されたデータは、シミュレーションと実世界の両方の環境でのVLAモデルの堅牢性と一般化を著しく促進することが示された。
関連論文リスト
- Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。
広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。
一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2025-06-23T11:28:37Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。