論文の概要: 3D Space as a Scratchpad for Editable Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2601.14602v1
- Date: Wed, 21 Jan 2026 02:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.216124
- Title: 3D Space as a Scratchpad for Editable Text-to-Image Generation
- Title(参考訳): 編集可能なテキスト・画像生成用スクラッチパッドとしての3次元空間
- Authors: Oindrila Saha, Vojtech Krs, Radomir Mech, Subhransu Maji, Matheus Gadelha, Kevin Blackburn-Matzen,
- Abstract要約: 言語意図と画像合成を橋渡しする3次元推論基板である空間的スクラッチパッドの概念を導入する。
我々のフレームワークは、対象と背景要素を解析し、編集可能な3Dメッシュとしてインスタンス化し、配置、配向、視点選択のためにエージェント的なシーンプランニングを採用する。
従来の2Dレイアウト方式とは異なり,本手法は直感的な3D編集をサポートし,最終画像に確実に伝播する。
- 参考スコア(独自算出の注目度): 23.03603120388675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language models (LLMs) has shown that reasoning improves when intermediate thoughts are externalized into explicit workspaces, such as chain-of-thought traces or tool-augmented reasoning. Yet, visual language models (VLMs) lack an analogous mechanism for spatial reasoning, limiting their ability to generate images that accurately reflect geometric relations, object identities, and compositional intent. We introduce the concept of a spatial scratchpad -- a 3D reasoning substrate that bridges linguistic intent and image synthesis. Given a text prompt, our framework parses subjects and background elements, instantiates them as editable 3D meshes, and employs agentic scene planning for placement, orientation, and viewpoint selection. The resulting 3D arrangement is rendered back into the image domain with identity-preserving cues, enabling the VLM to generate spatially consistent and visually coherent outputs. Unlike prior 2D layout-based methods, our approach supports intuitive 3D edits that propagate reliably into final images. Empirically, it achieves a 32% improvement in text alignment on GenAI-Bench, demonstrating the benefit of explicit 3D reasoning for precise, controllable image generation. Our results highlight a new paradigm for vision-language models that deliberate not only in language, but also in space. Code and visualizations at https://oindrilasaha.github.io/3DScratchpad/
- Abstract(参考訳): 大規模言語モデル(LLMs)の最近の進歩は、中間的思考が明確な作業空間に外部化されるとき、例えばチェーン・オブ・ソート・トレース(英語版)やツール強化推論(英語版)のような推論が改善することを示している。
しかし、視覚言語モデル(VLM)には空間的推論の類似メカニズムがなく、幾何学的関係、物体の同一性、構成意図を正確に反映した画像を生成する能力に制限がある。
言語意図と画像合成を橋渡しする3次元推論基板である空間的スクラッチパッドの概念を導入する。
テキストプロンプトを与えられたフレームワークは、対象と背景要素を解析し、編集可能な3Dメッシュとしてインスタンス化し、配置、配向、視点選択のためにエージェント的なシーンプランニングを採用する。
結果の3Dアレンジメントは、ID保存キューで画像領域に戻すことで、VLMは空間的に一貫した視覚的コヒーレントな出力を生成する。
従来の2Dレイアウト方式とは異なり,本手法は直感的な3D編集をサポートし,最終画像に確実に伝播する。
実験的に、GenAI-Bench上でのテキストアライメントの32%の改善を実現し、正確に制御可能な画像生成のための明示的な3D推論の利点を示している。
この結果は,言語だけでなく,空間においても意図的な視覚言語モデルのための新しいパラダイムを浮き彫りにしている。
Code and visualizations at https://oindrilasaha.github.io/3DScratchpad/
関連論文リスト
- Articulate3D: Zero-Shot Text-Driven 3D Object Posing [38.75075284385844]
本稿では,言語制御による3Dアセットの提示を目的とした,トレーニング不要なArticulate3Dを提案する。
我々は、入力画像に条件付けされたターゲット画像とテキスト命令を作成するために、強力な画像生成装置を変更する。
次に、マルチビューポーズ最適化ステップを通じて、メッシュをターゲットイメージに合わせる。
論文 参考訳(メタデータ) (2025-08-26T17:59:17Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Fantasia3D: Disentangling Geometry and Appearance for High-quality
Text-to-3D Content Creation [45.69270771487455]
本稿では,高品質なテキスト・ツー・3Dコンテンツ作成のためのFantasia3Dの新たな手法を提案する。
Fantasia3Dの鍵となるのは、幾何学と外観の混乱したモデリングと学習である。
我々のフレームワークは、人気のあるグラフィックスエンジンとより互換性があり、生成した3Dアセットのリライティング、編集、物理シミュレーションをサポートしています。
論文 参考訳(メタデータ) (2023-03-24T09:30:09Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。