論文の概要: PanoFree: Tuning-Free Holistic Multi-view Image Generation with Cross-view Self-Guidance
- arxiv url: http://arxiv.org/abs/2408.02157v1
- Date: Sun, 4 Aug 2024 22:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:56:07.371245
- Title: PanoFree: Tuning-Free Holistic Multi-view Image Generation with Cross-view Self-Guidance
- Title(参考訳): PanoFree: クロスビューセルフガイドによるチューニング不要なホロスティックな多視点画像生成
- Authors: Aoming Liu, Zhong Li, Zhang Chen, Nannan Li, Yi Xu, Bryan A. Plummer,
- Abstract要約: PanoFreeは、チューニング不要なマルチビュー画像生成のための新しい方法である。
微調整を必要とせず、エラーの蓄積による一貫性とアーティファクトの重要な問題に対処する。
エラーの大幅な削減、グローバルな一貫性の向上、微調整を余分に行わずに画質の向上を実現している。
- 参考スコア(独自算出の注目度): 37.45462643757252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Immersive scene generation, notably panorama creation, benefits significantly from the adaptation of large pre-trained text-to-image (T2I) models for multi-view image generation. Due to the high cost of acquiring multi-view images, tuning-free generation is preferred. However, existing methods are either limited to simple correspondences or require extensive fine-tuning to capture complex ones. We present PanoFree, a novel method for tuning-free multi-view image generation that supports an extensive array of correspondences. PanoFree sequentially generates multi-view images using iterative warping and inpainting, addressing the key issues of inconsistency and artifacts from error accumulation without the need for fine-tuning. It improves error accumulation by enhancing cross-view awareness and refines the warping and inpainting processes via cross-view guidance, risky area estimation and erasing, and symmetric bidirectional guided generation for loop closure, alongside guidance-based semantic and density control for scene structure preservation. In experiments on Planar, 360{\deg}, and Full Spherical Panoramas, PanoFree demonstrates significant error reduction, improves global consistency, and boosts image quality without extra fine-tuning. Compared to existing methods, PanoFree is up to 5x more efficient in time and 3x more efficient in GPU memory usage, and maintains superior diversity of results (2x better in our user study). PanoFree offers a viable alternative to costly fine-tuning or the use of additional pre-trained models. Project website at https://panofree.github.io/.
- Abstract(参考訳): 没入型シーン生成、特にパノラマ生成は、多視点画像生成のための大規模な事前訓練されたテキスト・ツー・イメージ(T2I)モデルの適応から大きな恩恵を受ける。
マルチビュー画像を取得するコストが高いため、チューニング不要な生成が好まれる。
しかし、既存の手法は単純な対応に限られるか、複雑なものを捉えるために広範囲の微調整を必要とする。
パノフリー(PanoFree)は、広範囲な対応をサポートするチューニング不要なマルチビュー画像生成手法である。
PanoFreeは逐次、反復ワープとインペインティングを使用してマルチビュー画像を生成し、微調整を必要とせずにエラーの蓄積から不整合とアーティファクトの鍵となる問題に対処する。
クロスビュー認識を強化し、クロスビューガイダンス、リスクエリア推定および消去によるワーピング・インペインティングプロセス、ループクロージャのための対称双方向誘導生成、シーン構造保存のためのガイダンスベースセマンティクスと密度制御によるエラー蓄積を改善する。
Planar、360{\deg}、Full Spherical Panoramasの実験では、PanoFreeは大幅なエラー低減、グローバルな一貫性の向上、さらに微調整をせずに画質の向上を実現している。
既存の方法と比較して、PanoFreeはGPUメモリ使用時の最大5倍効率が向上し、3倍効率が向上しています。
PanoFreeは、コストのかかる微調整や、追加のトレーニング済みモデルの使用に代わる、実行可能な代替手段を提供する。
Project website at https://panofree.github.io/.com
関連論文リスト
- PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs [10.970010947605289]
我々はパノラマ画像生成を再定義する新しいフレームワークであるPanoLlamaを紹介した。
事前学習したLlamaGenアーキテクチャに基づいて、自己回帰的に画像を生成し、サイズ制限に対処するための拡張戦略を開発する。
この方法は、画像トークン構造を作物的にもトレーニング的にも整合し、最小限のシームと最大限のスケーラビリティを備えた高品質なパノラマを実現する。
論文 参考訳(メタデータ) (2024-11-24T15:06:57Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文 参考訳(メタデータ) (2023-05-17T17:59:55Z) - Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。
本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文 参考訳(メタデータ) (2023-02-16T10:40:55Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Unsupervised Cycle-consistent Generative Adversarial Networks for
Pan-sharpening [41.68141846006704]
本稿では,この問題を緩和するために,基礎的な真理を伴わずに,フルスケールの画像から学習する,教師なしの生成的敵対的枠組みを提案する。
PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。
提案手法は,フルスケール画像のパンシャーピング性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-20T09:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。