論文の概要: MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
- arxiv url: http://arxiv.org/abs/2503.18470v1
- Date: Mon, 24 Mar 2025 09:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:36.695987
- Title: MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
- Title(参考訳): MetaSpatial: メタバース用VLMにおける3次元空間推論の強化
- Authors: Zhenyu Pan, Han Liu,
- Abstract要約: 視覚言語モデル(VLM)における3次元空間推論の強化を目的とした,最初の強化学習ベースのフレームワークであるMetaSpatialを提案する。
我々のキーとなる革新はマルチターン RL ベースの最適化機構で、物理認識の制約とレンダリングされた画像評価を統合し、生成した3Dレイアウトが整合的で、物理的に妥当で、審美的に整合していることを保証する。
- 参考スコア(独自算出の注目度): 5.745502268935752
- License:
- Abstract: We present MetaSpatial, the first reinforcement learning (RL)-based framework designed to enhance 3D spatial reasoning in vision-language models (VLMs), enabling real-time 3D scene generation without the need for hard-coded optimizations. MetaSpatial addresses two core challenges: (i) the lack of internalized 3D spatial reasoning in VLMs, which limits their ability to generate realistic layouts, and (ii) the inefficiency of traditional supervised fine-tuning (SFT) for layout generation tasks, as perfect ground truth annotations are unavailable. Our key innovation is a multi-turn RL-based optimization mechanism that integrates physics-aware constraints and rendered image evaluations, ensuring generated 3D layouts are coherent, physically plausible, and aesthetically consistent. Methodologically, MetaSpatial introduces an adaptive, iterative reasoning process, where the VLM refines spatial arrangements over multiple turns by analyzing rendered outputs, improving scene coherence progressively. Empirical evaluations demonstrate that MetaSpatial significantly enhances the spatial consistency and formatting stability of various scale models. Post-training, object placements are more realistic, aligned, and functionally coherent, validating the effectiveness of RL for 3D spatial reasoning in metaverse, AR/VR, digital twins, and game development applications. Our code, data, and training pipeline are publicly available at https://github.com/PzySeere/MetaSpatial.
- Abstract(参考訳): 本稿では、視覚言語モデル(VLM)における3次元空間推論を強化するために設計された最初の強化学習(RL)ベースのフレームワークであるMetaSpatialを紹介し、ハードコード最適化を必要とせずにリアルタイムな3次元シーン生成を可能にする。
MetaSpatialは2つの課題に対処する。
一 現実的なレイアウトを生成する能力を制限するVLMの内部的な3次元空間推論の欠如
(II) レイアウト生成タスクにおける従来の教師付き微調整(SFT)の非効率性。
我々のキーとなる革新はマルチターン RL ベースの最適化機構で、物理に意識した制約とレンダリングされた画像評価を統合し、生成した3Dレイアウトが整合的で、物理的に妥当で、審美的に整合していることを保証する。
手法的に、MetaSpatialは適応的で反復的な推論プロセスを導入し、VLMはレンダリングされた出力を分析して複数のターン上の空間配置を洗練し、シーンコヒーレンスを徐々に改善する。
実験により,MetaSpatialは様々なスケールモデルの空間的一貫性とフォーマット安定性を大幅に向上させることが示された。
トレーニング後のオブジェクト配置は、より現実的で、整列的で、機能的に一貫性があり、メタバース、AR/VR、デジタルツイン、ゲーム開発アプリケーションにおける3次元空間推論におけるRLの有効性を検証する。
私たちのコード、データ、トレーニングパイプラインはhttps://github.com/PzySeere/MetaSpatial.comで公開されています。
関連論文リスト
- Adapting Human Mesh Recovery with Vision-Language Feedback [17.253535686451897]
視覚言語モデルを用いて対話的な身体部分記述を生成する。
我々はテキストエンコーダとポーズVQ-VAEをトレーニングし、テキストを共有潜在空間内のボディポーズにアライメントする。
モデルは正確な3D知覚と画像の一貫性を持ったポーズを生成することができる。
論文 参考訳(メタデータ) (2025-02-06T07:42:00Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。