論文の概要: Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization
- arxiv url: http://arxiv.org/abs/2508.14811v1
- Date: Wed, 20 Aug 2025 16:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.516349
- Title: Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization
- Title(参考訳): Tinker:Diffusionの3D-Multi-View Consistent Editingへのギフト
- Authors: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen,
- Abstract要約: 我々は高忠実度3D編集のための多用途フレームワークであるTinkerを紹介する。
Tinkerは、1つか2つの画像から、堅牢でマルチビューで一貫した編集を提供する。
私たちは、Tinkerが真にスケーラブルでゼロショットの3D編集への重要な一歩だと信じています。
- 参考スコア(独自算出の注目度): 42.00640307135371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
- Abstract(参考訳): 我々は,高忠実度3D編集のための多用途フレームワークであるTinkerを紹介した。
マルチビューの一貫性を確保するために、あるいは数十の一貫性のある一貫したインプットビューを生成するために、シーンごとの広範囲な最適化を必要とする従来の技術とは異なり、Tinkerは1つか2つの画像から堅牢で複数ビューの一貫性のある編集を行う。
この能力は、事前訓練された拡散モデルを再取得することで、潜伏した3D認識を解放することに由来する。
この分野での研究を進めるために,我々は,多様なシーンやスタイルにまたがる,最初の大規模マルチビュー編集データセットとデータパイプラインをキュレートする。
このデータセット上に構築したフレームワークは,シーンごとのトレーニングを行なわずに,複数ビュー一貫したビューを生成できる。(1) 複数ビューエディタの参照: あらゆる視点において一貫性のある正確な参照駆動編集を可能にする。
2) 映像合成装置: 映像拡散から時空間の先行情報を活用することで, スパース入力からでも, 高品質なシーン補完とノベルビュー生成を実現する。
広範な実験を通じて、Tinkerは一般化可能な3Dコンテンツ作成の障壁を著しく減らし、編集、ノベルビュー合成、レンダリング強化タスクにおける最先端のパフォーマンスを達成する。
私たちは、Tinkerが真にスケーラブルでゼロショットの3D編集への重要な一歩だと信じています。
プロジェクトWebページ: https://aim-uofa.github.io/Tinker
関連論文リスト
- DisCo3D: Distilling Multi-View Consistency for 3D Scene Editing [12.383291424229448]
我々は,従来の3D一貫性を2Dエディタに蒸留する新しいフレームワークである textbfDisCo3D を提案する。
まず,シーン適応のためのマルチビュー入力を用いて3Dジェネレータを微調整し,整合蒸留により2Dエディターを訓練する。
実験の結果、DisCo3Dは安定したマルチビューの一貫性を実現し、編集品質において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-08-03T09:27:41Z) - Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [36.08715662927022]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。
我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文 参考訳(メタデータ) (2025-06-27T17:59:01Z) - Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing [25.237699330731395]
テキスト誘導型3D編集は意味のある局所的な3D領域を正確に編集することを目的としている。
既存の方法は通常、2Dビューを無差別に編集し、3D空間に投影する。
理想的な一貫した3D編集は、テキストプログレッシブ・ビューのパラダイムによって実現できると我々は主張する。
論文 参考訳(メタデータ) (2025-05-31T11:11:55Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。