Fugu-MT 論文翻訳(概要): ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

論文の概要: ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

arxiv url: http://arxiv.org/abs/2402.18842v1
Date: Thu, 29 Feb 2024 04:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:14:16.640108
Title: ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
Title（参考訳）: viewfusion:interpolated denoisingによるマルチビュー一貫性の実現
Authors: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
Abstract要約: 既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
参考スコア（独自算出の注目度）: 48.02829400913904
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Novel-view synthesis through diffusion models has demonstrated remarkable potential for generating diverse and high-quality images. Yet, the independent process of image generation in these prevailing methods leads to challenges in maintaining multiple-view consistency. To address this, we introduce ViewFusion, a novel, training-free algorithm that can be seamlessly integrated into existing pre-trained diffusion models. Our approach adopts an auto-regressive method that implicitly leverages previously generated views as context for the next view generation, ensuring robust multi-view consistency during the novel-view generation process. Through a diffusion process that fuses known-view information via interpolated denoising, our framework successfully extends single-view conditioned models to work in multiple-view conditional settings without any additional fine-tuning. Extensive experimental results demonstrate the effectiveness of ViewFusion in generating consistent and detailed novel views.
Abstract（参考訳）: 拡散モデルによる新しいビュー合成は、多彩で高品質な画像を生成する顕著な可能性を示している。しかし,これらの手法における画像生成の独立したプロセスは,複数視点の一貫性を維持する上での課題に繋がる。そこで本研究では,既存の拡散モデルにシームレスに統合可能な,新しいトレーニングフリーなアルゴリズムであるviewfusionを提案する。提案手法では,従来のビューをコンテキストとして暗黙的に活用する自動回帰手法を採用し,新規ビュー生成プロセスにおける堅牢なマルチビュー整合性を確保する。補間デノベーションにより既知のビュー情報を融合する拡散プロセスを通じて、我々は、単一ビュー条件付きモデルを拡張して、追加の微調整なしで複数ビュー条件設定で動作させることに成功した。広範にわたる実験結果は、一貫した詳細な新しいビューを生成するためのViewFusionの有効性を示している。

関連論文リスト

FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation [49.74776147964999]
マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
論文参考訳（メタデータ） (2025-12-10T13:06:40Z)
StorySync: Training-Free Subject Consistency in Text-to-Image Generation via Region Harmonization [31.250596607318364]
既存のアプローチは、通常、微調整または再訓練モデルに依存し、計算コストが高く、時間がかかり、しばしば既存のモデルの能力に干渉する。本稿では,効率的な一貫したオブジェクト生成法を提案する。実験により,様々なシナリオにまたがって,視覚的に一貫した被写体を生成することができた。
論文参考訳（メタデータ） (2025-07-31T11:24:40Z)
WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image [3.4248731707266264]
本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。我々のキーとなる考え方は、適応的な注意操作と雑音の再生を可能にする訓練不要な手法で拡散モデルを強化することである。本手法は,様々な拡散モデル間での視界の整合性を向上し,その適用性を示す。
論文参考訳（メタデータ） (2025-06-30T05:00:47Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis [47.57948804514928]
この研究は、新しいビュー合成に対する最先端のエンドツーエンド生成アプローチであるViewFusionを導入している。 ViewFusionは、シーンの任意の入力ビューに拡散デノゲーションステップを同時に適用する。
論文参考訳（メタデータ） (2024-02-05T11:22:14Z)
Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文参考訳（メタデータ） (2024-01-17T13:07:22Z)
UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文参考訳（メタデータ） (2023-12-11T18:59:55Z)
EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。 16枚のマルチビュー画像をわずか12秒で生成する。品質評価の指標では、以前の手法を上回ります。
論文参考訳（メタデータ） (2023-12-11T05:20:52Z)
Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文参考訳（メタデータ） (2023-12-07T14:55:13Z)
On Conditioning the Input Noise for Controlled Image Generation with Diffusion Models [27.472482893004862]
条件付き画像生成は、画像編集、ストック写真の生成、および3Dオブジェクト生成におけるいくつかのブレークスルーの道を開いた。本研究では,入出力ノイズアーチファクトを慎重に構築した条件拡散モデルを提案する。
論文参考訳（メタデータ） (2022-05-08T13:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。