Fugu-MT 論文翻訳(概要): Vinedresser3D: Agentic Text-guided 3D Editing

論文の概要: Vinedresser3D: Agentic Text-guided 3D Editing

arxiv url: http://arxiv.org/abs/2602.19542v1
Date: Mon, 23 Feb 2026 06:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.699136
Title: Vinedresser3D: Agentic Text-guided 3D Editing
Title（参考訳）: Vinedresser3D:エージェントテキスト誘導3D編集
Authors: Yankuan Chi, Xiang Li, Zixuan Huang, James M. Rehg,
Abstract要約: Vinedresser3Dは高品質なテキスト誘導3D編集のためのエージェントフレームワークである。ネイティブな3D生成モデルの潜在空間で直接動作する。多様な3D編集の実験では、Vinedresser3Dは自動メトリクスと人間の嗜好の両方において、以前のベースラインよりも優れていた。
参考スコア（独自算出の注目度）: 26.81659566314386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-guided 3D editing aims to modify existing 3D assets using natural-language instructions. Current methods struggle to jointly understand complex prompts, automatically localize edits in 3D, and preserve unedited content. We introduce Vinedresser3D, an agentic framework for high-quality text-guided 3D editing that operates directly in the latent space of a native 3D generative model. Given a 3D asset and an editing prompt, Vinedresser3D uses a multimodal large language model to infer rich descriptions of the original asset, identify the edit region and edit type (addition, modification, deletion), and generate decomposed structural and appearance-level text guidance. The agent then selects an informative view and applies an image editing model to obtain visual guidance. Finally, an inversion-based rectified-flow inpainting pipeline with an interleaved sampling module performs editing in the 3D latent space, enforcing prompt alignment while maintaining 3D coherence and unedited regions. Experiments on diverse 3D edits demonstrate that Vinedresser3D outperforms prior baselines in both automatic metrics and human preference studies, while enabling precise, coherent, and mask-free 3D editing.
Abstract（参考訳）: テキスト誘導型3D編集は、自然言語命令を用いて既存の3Dアセットを変更することを目的としている。現在の方法は複雑なプロンプトを共同で理解し、編集を3Dで自動的にローカライズし、未編集のコンテンツを保存するのに苦労している。本研究では,Vinedresser3Dについて紹介する。Vinedresser3Dは,ネイティブな3D生成モデルの潜在空間で直接動作する高品質なテキストガイド3D編集のためのエージェントフレームワークである。 3Dアセットと編集プロンプトを与えられたVinedresser3Dは、マルチモーダルな言語モデルを使用して、元のアセットの豊富な記述を推測し、編集領域を特定し、タイプ(追加、修正、削除)を編集し、分解された構造的および外観レベルのテキストガイダンスを生成する。そして、エージェントは情報的ビューを選択し、画像編集モデルを適用して視覚的ガイダンスを得る。最後に、インターリーブされたサンプリングモジュールを備えたインバージョンベース整流インペインティングパイプラインは、3Dラテント空間で編集を行い、3Dコヒーレンスと未編集領域を維持しながら、即時アライメントを強制する。多様な3D編集の実験では、Vinedresser3Dは、正確な、一貫性のある、マスクのない3D編集を可能にしながら、自動測定と人間の嗜好の両方において、以前のベースラインよりも優れていた。

関連論文リスト

Towards Scalable and Consistent 3D Editing [32.16698854719098]
3D編集は没入型コンテンツ制作、デジタルエンターテイメント、AR/VRに広く応用されている。 2D編集とは異なり、クロスビューの一貫性、構造的忠実さ、きめ細かい制御性を必要とするため、依然として困難である。我々はこれまでで最大の3D編集ベンチマークである3DEditVerseを紹介した。モデル側では、3次元構造保存条件変換器である3DEditFormerを提案する。
論文参考訳（メタデータ） (2025-10-03T13:34:55Z)
3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文参考訳（メタデータ） (2025-08-29T22:51:59Z)
Instructive3D: Editing Large Reconstruction Models with Text Instructions [2.9575146209034853]
Instructive3Dは、3Dオブジェクトの生成と微細な編集を1つのモデルに統合する新しいLEMベースのモデルである。 Instructive3Dは編集プロンプトによって指定された特性を持つ優れた3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2025-01-08T09:28:25Z)
DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。既存の方法は直感的で局所的な編集に苦労する。 DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文参考訳（メタデータ） (2024-12-18T07:02:01Z)
PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文参考訳（メタデータ） (2024-12-09T15:44:47Z)
EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文参考訳（メタデータ） (2024-10-03T17:42:24Z)
Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。 Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文参考訳（メタデータ） (2024-07-09T13:24:42Z)
TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。 TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文参考訳（メタデータ） (2024-01-26T12:57:05Z)
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。