論文の概要: GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.14135v4
- Date: Wed, 24 Sep 2025 18:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.907369
- Title: GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation
- Title(参考訳): GAF:ロボットマニピュレーションにおける動的世界モデリングのための4次元表現としてのガウス作用場
- Authors: Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Kangchen Lv, Liangjun Xing, Xiang Li, Hongwen Zhang, Yebin Liu,
- Abstract要約: 既存のアプローチは、視覚入力から直接アクションを予測するV-A(Vision-to-A)パラダイムや、中間的な3D表現を活用するV-3D-to-A(Vision-to-A)パラダイムに従うのが一般的である。
本稿では,ガウスアクション場(GAF)を介して動作認識4D表現から直接行動推論を可能にするV-4D-Aフレームワークを採用する。
実験では、+11.5385 dB PSNR、+0.3864 SSIM、-0.5574 LPIPSの改善を達成し、平均+7.3%の成功を上げた。
- 参考スコア(独自算出の注目度): 47.471097712217386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-to-Action (V-3D-A) paradigm, leveraging intermediate 3D representations. However, these methods often struggle with action inaccuracies due to the complexity and dynamic nature of manipulation scenes. In this paper, we adopt a V-4D-A framework that enables direct action reasoning from motion-aware 4D representations via a Gaussian Action Field (GAF). GAF extends 3D Gaussian Splatting (3DGS) by incorporating learnable motion attributes, allowing 4D modeling of dynamic scenes and manipulation actions. To learn time-varying scene geometry and action-aware robot motion, GAF provides three interrelated outputs: reconstruction of the current scene, prediction of future frames, and estimation of init action via Gaussian motion. Furthermore, we employ an action-vision-aligned denoising framework, conditioned on a unified representation that combines the init action and the Gaussian perception, both generated by the GAF, to further obtain more precise actions. Extensive experiments demonstrate significant improvements, with GAF achieving +11.5385 dB PSNR, +0.3864 SSIM and -0.5574 LPIPS improvements in reconstruction quality, while boosting the average +7.3% success rate in robotic manipulation tasks over state-of-the-art methods.
- Abstract(参考訳): 視覚に基づくロボット操作には正確なシーン認識が不可欠である。
既存のアプローチは、視覚入力から直接アクションを予測するV-A(Vision-to-A)パラダイムや、中間的な3D表現を活用するV-3D-to-A(Vision-to-A)パラダイムに従うのが一般的である。
しかし、これらの手法は、操作シーンの複雑さと動的な性質のために、アクション不正確さに悩まされることが多い。
本稿では,ガウスアクション場(GAF)を介して動作認識4D表現から直接の動作推論を可能にするV-4D-Aフレームワークを採用する。
GAFは、学習可能なモーション属性を組み込むことで、3Dガウススプレイティング(3DGS)を拡張し、ダイナミックシーンと操作動作の4Dモデリングを可能にする。
時間変化のあるシーン形状と行動認識ロボットの動きを学習するために、GAFは現在のシーンの再構築、将来のフレームの予測、ガウス運動によるinitアクションの推定の3つの相互関連出力を提供する。
さらに,GAFが生み出すイニト行動とガウス的認識を組み合わせた統一表現を前提とした行動ビジョン整合型認知フレームワークを用いて,より正確な行動を得る。
大規模な実験では、GAF は+11.5385 dB PSNR、+0.3864 SSIM、-0.5574 LPIPSの改善を達成し、また、最先端の手法よりもロボット操作における平均+7.3%の成功率を高めた。
関連論文リスト
- DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。
本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。
提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文 参考訳(メタデータ) (2025-05-09T05:32:40Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation [11.233768932957771]
3次元流れは、シーン内の3次元粒子の動きの傾向を表す。
ManiTrendは3D粒子、視覚観察、操作動作のダイナミクスをモデル化する統合フレームワークである。
提案手法は最先端の性能を高い効率で達成する。
論文 参考訳(メタデータ) (2025-02-14T09:13:57Z) - Prediction with Action: Visual Policy Learning via Joint Denoising Process [14.588908033404474]
PADは、画像予測とロボットアクションを統合する視覚ポリシー学習フレームワークである。
DiTは画像とロボット状態をシームレスに統合し、将来の画像とロボット動作の同時予測を可能にする。
Padは従来の手法よりも優れており、Metaworldのベンチマークで26.3%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:54:58Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Learning Continuous Grasping Function with a Dexterous Hand from Human
Demonstrations [7.733935820533302]
提案したモデルであるContinuous Grasping Function (CGF) を命名する。
CGFは3次元人間の実演を用いた変分オートエンコーダによる生成的モデリングによって学習される。
従来の計画アルゴリズムと比較して、CGFはより効率的であり、実のアレグロハンドでグリーピングする際の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-07-11T17:59:50Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。