Fugu-MT 論文翻訳(概要): Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

論文の概要: Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.02580v1
Date: Mon, 01 Jun 2026 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:32.570578
Title: Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models
Title（参考訳）: ブレンダーの思考:視覚言語モデルを用いた段階的実行可能逆グラフ
Authors: Guangzhao He, Rundong Luo, Wei-Chiu Ma, Hadar Averbuch-Elor,
Abstract要約: 1枚の画像から3Dシーンを再構成するエージェントフレームワークであるSEIG(Staged Executable Inverse Graphics)を導入する。我々は,画素レベル,知覚的,意味的忠実度にまたがるさまざまな再現指標を用いて,様々な場面におけるフレームワークの評価を行った。
参考スコア（独自算出の注目度）: 29.14307229425815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.
Abstract（参考訳）: 逆グラフィックスは、画像のレンダリング、依存、操作が可能な編集可能な3Dシーンとして再構成しようとする、長く、非常に制約の少ない問題である。本研究では,シーンを編集可能なブレンダープログラムとして再構成することにより,事前学習された視覚言語モデル(VLM)が,特殊な2次元または3次元基礎モデル,微分可能レンダリング,多視点監視に頼ることなく,単一の画像から直接,実行可能な逆画像を生成することができるかどうかを検討する。本研究では,1つの画像から3次元シーンを再構成するエージェント・フレームワークであるSEIG(Staged Executable Inverse Graphics)を紹介する。我々は,画素レベル,知覚的,意味的忠実度にまたがるさまざまな再現指標を用いて,様々な場面におけるフレームワークの評価を行った。提案実験により,段階的再構成により再現精度が大幅に向上し,汎用VLMを用いた実行可能逆画像のタスク分解の重要性が強調された。最後に、再構成可能なBlenderシーンで利用可能な様々なダウンストリームアプリケーションを紹介します。

関連論文リスト

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.35082963701541]
VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。
論文参考訳（メタデータ） (2026-01-16T09:11:55Z)
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework [7.4570191712029965]
3D-RE-GENは、単一の画像をテクスチャ化された3Dオブジェクトと背景に再構成する合成フレームワークである。私たちのパイプラインは、アセット検出、再構築、配置のためのモデルを統合し、元々意図されたドメインを超えて、特定のモデルをプッシュします。現在の方法とは異なり、3D-RE-GENは最適化中にオブジェクトを空間的に制約する包括的背景を生成する。
論文参考訳（メタデータ） (2025-12-19T11:20:52Z)
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models [4.852796482609347]
ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
論文参考訳（メタデータ） (2024-04-26T19:37:13Z)
Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。 LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-23T16:59:02Z)
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文参考訳（メタデータ） (2023-07-11T17:58:31Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。