論文の概要: Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine
- arxiv url: http://arxiv.org/abs/2511.13713v1
- Date: Mon, 17 Nov 2025 18:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.696412
- Title: Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine
- Title(参考訳): フリーフォームのシーンエディタ:3Dエンジンのようなマルチラウンドオブジェクト操作を実現する
- Authors: Xincheng Shuai, Zhenyuan Qin, Henghui Ding, Dacheng Tao,
- Abstract要約: 実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。
画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。
マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
- 参考スコア(独自算出の注目度): 83.0145525456509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) diffusion models have significantly improved semantic image editing, yet most methods fall short in performing 3D-aware object manipulation. In this work, we present FFSE, a 3D-aware autoregressive framework designed to enable intuitive, physically-consistent object editing directly on real-world images. Unlike previous approaches that either operate in image space or require slow and error-prone 3D reconstruction, FFSE models editing as a sequence of learned 3D transformations, allowing users to perform arbitrary manipulations, such as translation, scaling, and rotation, while preserving realistic background effects (e.g., shadows, reflections) and maintaining global scene consistency across multiple editing rounds. To support learning of multi-round 3D-aware object manipulation, we introduce 3DObjectEditor, a hybrid dataset constructed from simulated editing sequences across diverse objects and scenes, enabling effective training under multi-round and dynamic conditions. Extensive experiments show that the proposed FFSE significantly outperforms existing methods in both single-round and multi-round 3D-aware editing scenarios.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)拡散モデルの最近の進歩はセマンティック・イメージの編集を著しく改善しているが、ほとんどの手法は3D認識オブジェクト操作では不十分である。
本研究では,実世界の画像を直接編集する直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応自動回帰フレームワークであるFFSEを提案する。
イメージ空間で機能するか、遅くてエラーを起こしやすい3D再構成を必要とする以前のアプローチとは異なり、FFSEは学習した3D変換のシーケンスとして編集し、ユーザーは翻訳、スケーリング、回転などの任意の操作を実行できる。
マルチラウンド3Dオブジェクト操作の学習を支援するために,多ラウンドおよび動的条件下での効果的なトレーニングを可能にする3DObjectEditorを導入した。
大規模な実験により,提案するFFSEは,1ラウンドおよび複数ラウンドの3D対応編集シナリオにおいて,既存の手法よりも有意に優れていた。
関連論文リスト
- 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - 3DSceneEditor: Controllable 3D Scene Editing with Gaussian Splatting [31.98493679748211]
ガウススプラッティングを用いた3次元シーンのリアルタイムかつ高精度な編集を行う3DceneEditorを提案する。
従来の方法とは異なり、3DSceneEditorは3Dパイプラインを通して動作し、効率よく高品質な編集のためにガウシアンを直接操作できる。
論文 参考訳(メタデータ) (2024-12-02T15:03:55Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。