論文の概要: Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing
- arxiv url: http://arxiv.org/abs/2603.17583v1
- Date: Wed, 18 Mar 2026 10:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.654727
- Title: Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing
- Title(参考訳): エディット・アズ・アクト:オープン・ボキャブラリ3次元屋内シーン編集のためのゴール・レグレッシブ・プランニング
- Authors: Seongrae Noh, SeungWon Seo, Gyeong-Moon Park, HyeongYeop Kang,
- Abstract要約: Edit-As-Actは3D空間における目標回帰計画としてオープン語彙シーン編集を行うフレームワークである。
言語駆動のプランナーが行動を提案し、バリケータがゴール指向性、単調性、身体的実現性を強制する。
E2A-Benchでは,9つの屋内環境を対象とした63の編集タスクのベンチマークを行った。
- 参考スコア(独自算出の注目度): 20.022591860394012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing a 3D indoor scene from natural language is conceptually straightforward but technically challenging. Existing open-vocabulary systems often regenerate large portions of a scene or rely on image-space edits that disrupt spatial structure, resulting in unintended global changes or physically inconsistent layouts. These limitations stem from treating editing primarily as a generative task. We take a different view. A user instruction defines a desired world state, and editing should be the minimal sequence of actions that makes this state true while preserving everything else. This perspective motivates Edit-As-Act, a framework that performs open-vocabulary scene editing as goal-regressive planning in 3D space. Given a source scene and free-form instruction, Edit-As-Act predicts symbolic goal predicates and plans in EditLang, a PDDL-inspired action language that we design with explicit preconditions and effects encoding support, contact, collision, and other geometric relations. A language-driven planner proposes actions, and a validator enforces goal-directedness, monotonicity, and physical feasibility, producing interpretable and physically coherent transformations. By separating reasoning from low-level generation, Edit-As-Act achieves instruction fidelity, semantic consistency, and physical plausibility - three criteria that existing paradigms cannot satisfy together. On E2A-Bench, our benchmark of 63 editing tasks across 9 indoor environments, Edit-As-Act significantly outperforms prior approaches across all edit types and scene categories.
- Abstract(参考訳): 自然言語から3D屋内シーンを編集するのは、概念的には単純だが技術的には難しい。
既存のオープン語彙システムは、しばしばシーンの大部分を再生するか、空間構造を乱す画像空間の編集に依存し、意図しないグローバルな変化や物理的に一貫性のないレイアウトをもたらす。
これらの制限は、編集を主に生成タスクとして扱うことに由来する。
私たちは別の見方を取る。
ユーザ命令は、望ましい世界状態を定義し、編集は、他のすべてを保存しながら、この状態を真にする最小のアクションシーケンスであるべきである。
この視点は、3D空間における目標回帰計画としてオープン語彙シーン編集を実行するフレームワークであるEdit-As-Actを動機付けている。
ソースシーンと自由形式の命令が与えられた後、Edit-As-ActはPDDLにインスパイアされた行動言語であるEditLangでシンボル目標の述語と計画を予測する。
言語駆動型プランナーが行動を提案し、バリケータが目標指向性、単調性、物理的実現性を適用し、解釈可能かつ物理的に一貫性のある変換を生成する。
低レベルの生成から推論を分離することで、Edit-As-Actは命令の忠実さ、セマンティックな一貫性、物理的妥当性を達成する。
E2A-Benchでは、9つの屋内環境にわたる63の編集タスクのベンチマークを行い、編集-As-Actは、すべての編集タイプやシーンカテゴリで以前のアプローチよりも大幅に優れています。
関連論文リスト
- CEI-3D: Collaborative Explicit-Implicit 3D Reconstruction for Realistic and Fine-Grained Object Editing [51.73433734209541]
既存の3D編集手法は、再構成ネットワークの深い統合性のために、非現実的で未精細な結果をもたらすことが多い。
本稿では,現実的できめ細かな編集を容易にするための,編集指向の再構築パイプラインであるCEI-3Dを紹介する。
提案手法は,最新技術(SOTA)手法よりも,よりリアルできめ細かな編集結果を実現すると同時に,編集時間を短縮する。
論文 参考訳(メタデータ) (2026-03-12T11:15:11Z) - InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning [60.799998743918955]
複雑な現実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークを提案する。
InterCoGの重要な洞察は、まずテキスト内でのみオブジェクト位置推論を実行することである。
また,マルチモーダル・グラウンド・ライティング・アライメント・アライメントとマルチモーダル・グラウンド・ライティング・アライメント・アライメントの2つの補助的トレーニング・モジュールを提案する。
論文 参考訳(メタデータ) (2026-03-02T08:13:16Z) - I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - ReSpace: Text-Driven 3D Indoor Scene Synthesis and Editing with Preference Alignment [8.954070942391603]
ReSpaceはテキスト駆動型屋内シーン合成と編集のための生成フレームワークである。
教師付き微調整と選好アライメントを組み合わせた二段階学習手法を応用した。
シーン編集にはゼロショットLLMを用いてオブジェクトの削除と追加のプロンプトを行う。
論文 参考訳(メタデータ) (2025-06-03T05:22:04Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。