論文の概要: Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2603.03143v1
- Date: Tue, 03 Mar 2026 16:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.878912
- Title: Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
- Title(参考訳): 多視点連続3次元シーン編集のための幾何学誘導強化学習
- Authors: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin,
- Abstract要約: 3次元編集における2次元拡散モデルの先行的活用は、有望なパラダイムとして現れている。
我々は3次元基礎モデルであるVGGTから得られた新たな報酬を用いて、強化学習によって駆動されるシングルパスフレームワークであるtextbfRL3DEditを提案する。
実験により、RL3DEditは安定したマルチビューの一貫性を実現し、高い効率で品質を編集する最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 106.07976338405793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose \textbf{RL3DEdit}, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.
- Abstract(参考訳): 3次元編集における2次元拡散モデルの先行的活用は、有望なパラダイムとして現れている。
しかし、編集結果におけるマルチビューの一貫性を維持することは依然として困難であり、3D一貫性のあるペアデータ編集の極端な不足は、タスクを編集するための最も効果的なトレーニング戦略である教師付き微調整(SFT)をレンダリングする。
本稿では,多視点一貫した3Dコンテンツを生成することは極めて困難であるが,3D一貫性の検証は困難であり,自然に強化学習(RL)を実現可能なソリューションとして位置づけている。
そこで本研究では,3次元基礎モデルであるVGGTから得られた新たな報酬を用いて,RL最適化によって駆動されるシングルパスフレームワークである‘textbf{RL3DEdit}’を提案する。
具体的には,大規模な実世界のデータから得られたVGGTの頑健な先行情報を活用し,編集した画像をフィードし,出力された信頼マップを利用し,推定誤差を報奨信号として推定し,実効的に2次元編集先行情報をRLを介して3次元連続多様体に固定する。
大規模な実験により、RL3DEditは安定したマルチビューの一貫性を実現し、高い効率で品質を編集する最先端の手法より優れていることが示された。
3D編集の開発を促進するため、私たちはコードとモデルをリリースします。
関連論文リスト
- Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow [29.8200628539749]
TRELLIS生成バックボーンに基づく,効果的かつ完全なフィードフォワード3D編集フレームワークを提案する。
本フレームワークは,3次元表現に自由な2次元編集を適用すること,圧縮された3次元特徴の外観忠実性のボトルネックを克服すること,の2つの主要な課題に対処する。
論文 参考訳(メタデータ) (2026-02-25T02:15:14Z) - Edit3r: Instant 3D Scene Editing from Sparse Unposed Images [40.421700685587346]
編集3rは、3Dシーンを1パスで再構成・編集するフレームワークである。
Edit3rは,最近のベースラインと比較して,セマンティックアライメントと3D整合性の向上を実現している。
論文 参考訳(メタデータ) (2025-12-31T18:59:53Z) - Native 3D Editing with Full Attention [47.908091876301796]
本研究では,1つのフィードフォワードパスで直接3D表現を操作できる新しい3D編集フレームワークを提案する。
このデータセットは慎重にキュレーションされ、編集されたオブジェクトが命令の変更に忠実に従うことを保証する。
その結果,トークンの連結はパラメータ効率が良く,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-21T18:59:26Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - TrAME: Trajectory-Anchored Multi-View Editing for Text-Guided 3D Gaussian Splatting Manipulation [35.951718189386845]
TAS(Trajectory-Anchored Scheme)による複数ビューの整合性を保証するプログレッシブな3D編集戦略を提案する。
TASは2Dビュー編集と3D更新の間に密結合された反復プロセスを促進し、テキスト・ツー・イメージ・プロセスから得られるエラーの蓄積を防ぐ。
本稿では,2次元ビューの編集中に,ソースブランチからのクロスビューセマンティクスと幾何参照を利用して,対象ブランチからアライメントされたビューを出力する,調整不要なビュー一貫性注意制御(VCAC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:06:58Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。