論文の概要: InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization
- arxiv url: http://arxiv.org/abs/2511.14899v1
- Date: Tue, 18 Nov 2025 20:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.520025
- Title: InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization
- Title(参考訳): InstructMix2Mix:マルチビューモデルパーソナライゼーションによる一貫性スパースビュー編集
- Authors: Daniel Gilo, Or Litany,
- Abstract要約: I-Mix2Mixは,2次元拡散モデルの編集能力を事前学習した多視点拡散モデルに蒸留するフレームワークである。
実験により、I-Mix2Mixは高いフレーム単位の編集品質を維持しながら、マルチビューの一貫性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 18.396730534582474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the task of multi-view image editing from sparse input views, where the inputs can be seen as a mix of images capturing the scene from different viewpoints. The goal is to modify the scene according to a textual instruction while preserving consistency across all views. Existing methods, based on per-scene neural fields or temporal attention mechanisms, struggle in this setting, often producing artifacts and incoherent edits. We propose InstructMix2Mix (I-Mix2Mix), a framework that distills the editing capabilities of a 2D diffusion model into a pretrained multi-view diffusion model, leveraging its data-driven 3D prior for cross-view consistency. A key contribution is replacing the conventional neural field consolidator in Score Distillation Sampling (SDS) with a multi-view diffusion student, which requires novel adaptations: incremental student updates across timesteps, a specialized teacher noise scheduler to prevent degeneration, and an attention modification that enhances cross-view coherence without additional cost. Experiments demonstrate that I-Mix2Mix significantly improves multi-view consistency while maintaining high per-frame edit quality.
- Abstract(参考訳): 本稿では,スパース入力ビューからの多視点画像編集の課題に対処し,異なる視点からシーンをキャプチャする画像の混合として入力を見ることができる。
目標は、すべてのビューの一貫性を維持しながら、テキスト命令に従ってシーンを変更することである。
既存の手法は、シーンごとの神経場や時間的注意機構に基づいており、しばしば人工物や不整合な編集を生成する。
InstructMix2Mix(I-Mix2Mix)は,2次元拡散モデルの編集能力を事前学習した多視点拡散モデルに蒸留するフレームワークである。
重要な貢献は、スコア蒸留サンプリング(SDS)における従来の神経磁場コンソリケータを、新しい適応を必要とする多視点拡散学生に置き換えることである。
実験により、I-Mix2Mixは高いフレーム単位の編集品質を維持しながら、マルチビューの一貫性を大幅に向上することが示された。
関連論文リスト
- Coupled Diffusion Sampling for Training-Free Multi-View Image Editing [27.884718441352387]
事前訓練された2D画像編集モデルは、複数のビュー画像の集合において、各画像の高品質な編集を独立して生成することができるが、ビュー間の一貫性は維持されない。
本稿では,生成した2次元画像列を事前学習した多視点画像分布に適応するように制約することで,暗黙的な3次元正規化手法を提案する。
これは、多視点画像分布と2次元編集画像分布の両方から2つの軌跡を同時にサンプリングする単純な拡散サンプリング技術である。
論文 参考訳(メタデータ) (2025-10-16T17:59:59Z) - MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion [24.513096225720854]
本稿では,複数視点のポーズ制御とカスタマイズを共同で実現することを目的とした,新しいタスクであるマルチビューカスタマイズを提案する。
MVCustomは,多視点の一貫性とカスタマイズの整合性の両方を実現するために設計された,新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-10-15T16:00:26Z) - CDG-MAE: Learning Correspondences from Diffusion Generated Views [19.24402848656637]
CDG-MAEは、静的画像から生成される多様な合成ビューを利用する、新しいMAEベースの自己教師方式である。
これらの生成されたビューは、ポーズとパースペクティブに大きな変化を示し、リッチなトレーニング信号を提供する。
論文 参考訳(メタデータ) (2025-06-22T20:40:11Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。