論文の概要: TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing
- arxiv url: http://arxiv.org/abs/2405.14455v1
- Date: Thu, 23 May 2024 11:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:24:46.887455
- Title: TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing
- Title(参考訳): TIGER:テキストで指示された3Dガウス検索とコヒーレント編集
- Authors: Teng Xu, Jiamin Chen, Peng Chen, Youjia Zhang, Junqing Yu, Wei Yang,
- Abstract要約: 本稿では,テキストによる3Dガウス検索と編集のための体系的アプローチ,すなわちTIGERを提案する。
本稿では,2次元画像編集拡散モデルと多視点拡散モデルを集約したコヒーレントスコア蒸留(CSD)を提案する。
- 参考スコア(独自算出の注目度): 12.50147114409895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing objects within a scene is a critical functionality required across a broad spectrum of applications in computer vision and graphics. As 3D Gaussian Splatting (3DGS) emerges as a frontier in scene representation, the effective modification of 3D Gaussian scenes has become increasingly vital. This process entails accurately retrieve the target objects and subsequently performing modifications based on instructions. Though available in pieces, existing techniques mainly embed sparse semantics into Gaussians for retrieval, and rely on an iterative dataset update paradigm for editing, leading to over-smoothing or inconsistency issues. To this end, this paper proposes a systematic approach, namely TIGER, for coherent text-instructed 3D Gaussian retrieval and editing. In contrast to the top-down language grounding approach for 3D Gaussians, we adopt a bottom-up language aggregation strategy to generate a denser language embedded 3D Gaussians that supports open-vocabulary retrieval. To overcome the over-smoothing and inconsistency issues in editing, we propose a Coherent Score Distillation (CSD) that aggregates a 2D image editing diffusion model and a multi-view diffusion model for score distillation, producing multi-view consistent editing with much finer details. In various experiments, we demonstrate that our TIGER is able to accomplish more consistent and realistic edits than prior work.
- Abstract(参考訳): シーン内のオブジェクトの編集は、コンピュータビジョンとグラフィックスにおける幅広いアプリケーションで必要とされる重要な機能である。
3Dガウス撮影(3DGS)がシーン表現のフロンティアとして出現するにつれ、3Dガウスシーンの効果的な修正がますます重要になっている。
このプロセスでは、ターゲットオブジェクトを正確に検索し、次に命令に基づいて修正を実行する。
一部では利用可能だが、既存のテクニックは主に検索のためにガウシアンにスパースセマンティクスを組み込んでおり、編集に反復的なデータセット更新パラダイムに依存しており、過度なスムース化や一貫性の問題を招いている。
そこで本研究では,テキストによる3次元ガウス検索と編集のための体系的アプローチであるTIGERを提案する。
3Dガウシアンのためのトップダウン言語基盤アプローチとは対照的に、我々はボトムアップ言語集約戦略を採用し、オープン語彙検索をサポートする高密度言語を組み込んだ3Dガウシアンを生成する。
本稿では2次元画像編集拡散モデルと多視点拡散モデルとを集約したコヒーレントスコア蒸留(CSD)を提案する。
様々な実験において、我々のTIGERは以前の作業よりも一貫性があり、リアルな編集ができることを示した。
関連論文リスト
- GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
画像編集プロセスに3DGSをシームレスに組み込むフレームワークであるView-Consistent Editing (VcEdit)を導入する。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - GSEdit: Efficient Text-Guided Editing of 3D Objects via Gaussian Splatting [10.527349772993796]
本稿では,Gaussian Splattingモデルに基づくテキスト誘導型3Dオブジェクト編集パイプラインであるGSEditを紹介する。
本手法では, 3Dオブジェクトの形状や外観の編集を, 消費者ハードウェア上で数分で行うことなく行うことができる。
論文 参考訳(メタデータ) (2024-03-08T08:42:23Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。