論文の概要: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2601.11109v2
- Date: Thu, 22 Jan 2026 01:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.376872
- Title: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
- Title(参考訳): インターリーブ型マルチモーダル推論によるビジョン・アズ・インバースグラフィクスエージェント
- Authors: Shaofeng Yin, Jiaxin Ge, Zora Zhiruo Wang, Xiuyu Li, Michael J. Black, Trevor Darrell, Angjoo Kanazawa, Haiwen Feng,
- Abstract要約: VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。
長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
- 参考スコア(独自算出の注目度): 105.35082963701541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-as-inverse-graphics, the concept of reconstructing an image as an editable graphics program is a long-standing goal of computer vision. Yet even strong VLMs aren't able to achieve this in one-shot as they lack fine-grained spatial and physical grounding capability. Our key insight is that closing this gap requires interleaved multimodal reasoning through iterative execution and verification. Stemming from this, we present VIGA (Vision-as-Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write-run-render-compare-revise procedure. To support long-horizon reasoning, VIGA combines (i) a skill library that alternates generator and verifier roles and (ii) an evolving context memory that contains plans, code diffs, and render history. VIGA is task-agnostic as it doesn't require auxiliary modules, covering a wide range of tasks such as 3D reconstruction, multi-step scene editing, 4D physical interaction, and 2D document editing, etc. Empirically, we found VIGA substantially improves one-shot baselines on BlenderGym (35.32%) and SlideBench (117.17%). Moreover, VIGA is also model-agnostic as it doesn't require finetuning, enabling a unified protocol to evaluate heterogeneous foundation VLMs. To better support this protocol, we introduce BlenderBench, a challenging benchmark that stress-tests interleaved multimodal reasoning with graphics engine, where VIGA improves by 124.70%.
- Abstract(参考訳): ビジョン・アズ・イン・リバース・グラフィックス(Vision-as-inverse-graphics)とは、コンピュータビジョンの長年の目標である。
しかし、強力なVLMでさえ、微細な空間的および物理的接地能力が欠如しているため、これをワンショットで実現できない。
私たちの重要な洞察は、このギャップを埋めるには反復的な実行と検証を通じて、インターリーブされたマルチモーダル推論が必要です。
そこから、空の世界から始まるVIGA(Vision-as-Inverse-Graphic Agent)を提示し、クローズドループの書き込み・ラン・レンダー・コンパート・リビジョンによってシーンを再構成・編集する。
ロングホライズン推論をサポートするために、VIGAは組み合わせる
i)ジェネレータと検証役を交互に行う技術ライブラリ
(ii)計画、コード差分、レンダリング履歴を含む進化したコンテキストメモリ。
VIGAは、補助的なモジュールを必要としないため、タスクに依存しない。3D再構成、マルチステップシーン編集、4D物理インタラクション、2Dドキュメント編集など、幅広いタスクをカバーしている。
経験的に、VIGAはBlenderGym (35.32%)とSlideBench (117.17%)の1ショットベースラインを大幅に改善することがわかった。
さらに、VIGAは微調整を必要としないため、モデルに依存しないため、統一されたプロトコルで不均一な基礎VLMを評価することができる。
このプロトコルをよりサポートするために、BlenderBenchを紹介した。BlenderBenchは、VGAが124.70%向上したグラフィックスエンジンとインターリーブされたマルチモーダル推論をストレステストする、挑戦的なベンチマークである。
関連論文リスト
- MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement [66.13644883379087]
MLLMを用いた3次元オブジェクト配置における3つの課題に対処する。
まず、MLLMの弱い視覚的基盤に対処するために、MPPベースのAPIを導入する。
第2に、MLLMの3Dシーン理解を、特殊な視覚ツール群で強化する。
第3に,反復的かつエラーを起こしやすい更新を管理するために,協調的なマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T19:22:39Z) - Evaluating Foundation Models' 3D Understanding Through Multi-View Correspondence Analysis [38.10984626023432]
本稿では, 微調整を必要とせず, 濃密な視覚的特徴の質を直接的に調査する, コンテキスト内3Dシーン理解のための新しいベンチマークを提案する。
我々は8つの最先端基盤モデルをベンチマークし、DINOベースのエンコーダが大きな視点シフトで競争力を維持することを示す。
論文 参考訳(メタデータ) (2025-12-12T14:03:16Z) - View-on-Graph: Zero-shot 3D Visual Grounding via Vision-Language Reasoning on Scene Graphs [19.27758108925572]
3Dビジュアルグラウンドは、言語記述から3Dシーン内のオブジェクトを識別する。
既存のゼロショットアプローチでは、3次元空間情報(SI)をVLM処理に変換することで2次元視覚言語モデル(VLM)を利用する。
本稿では,新たなVLM x SIパラダイムを提案する。このパラダイムは3D SIを外部化することで,VLMが推論時に必要なもののみを段階的に取り出すことを可能にする。
論文 参考訳(メタデータ) (2025-12-10T00:59:17Z) - Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames [17.975173937253494]
エゴセントリックなビデオを操作するAIアシスタントは、時間をかけて空間的な手がかりを統合する必要がある。
Disjoint-3DQAは、VLMのこの能力を評価するためのQAベンチマークである。
論文 参考訳(メタデータ) (2025-05-30T06:32:26Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing [4.268804603388096]
BlenderGymは3Dグラフィック編集のための視覚言語モデル(VLM)システムベンチマークである。
クローズドおよびオープンソース VLM システムを評価し,最先端の VLM システムでさえ,Blender ユーザにとって比較的簡単なタスクに悩まされていることを観察した。
論文 参考訳(メタデータ) (2025-04-02T14:51:45Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。