論文の概要: Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing
- arxiv url: http://arxiv.org/abs/2404.12900v1
- Date: Fri, 19 Apr 2024 14:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:46:18.490381
- Title: Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing
- Title(参考訳): イメージワイド・アテンション・シェアリングを用いた訓練とプロンプトフリーの一般絵画の調和
- Authors: Teng-Fang Hsiao, Bo-Kai Ruan, Hong-Han Shuai,
- Abstract要約: Painterly Image Harmonizationは、異なる視覚要素を単一のコヒーレントなイメージにシームレスにブレンドすることを目的としている。
以前のアプローチでは、データ制約のトレーニング、時間を要する微調整の必要性、追加のプロンプトへの依存など、重大な制限に直面する場合が多い。
イメージワイド・アテンション・シェアリングを用いたトレーニング・アンド・プロンプトフリーの一般絵画調和手法を設計する。
- 参考スコア(独自算出の注目度): 20.189124622271446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Painterly Image Harmonization aims at seamlessly blending disparate visual elements within a single coherent image. However, previous approaches often encounter significant limitations due to training data constraints, the need for time-consuming fine-tuning, or reliance on additional prompts. To surmount these hurdles, we design a Training-and-prompt-Free General Painterly Harmonization method using image-wise attention sharing (TF-GPH), which integrates a novel "share-attention module". This module redefines the traditional self-attention mechanism by allowing for comprehensive image-wise attention, facilitating the use of a state-of-the-art pretrained latent diffusion model without the typical training data limitations. Additionally, we further introduce "similarity reweighting" mechanism enhances performance by effectively harnessing cross-image information, surpassing the capabilities of fine-tuning or prompt-based approaches. At last, we recognize the deficiencies in existing benchmarks and propose the "General Painterly Harmonization Benchmark", which employs range-based evaluation metrics to more accurately reflect real-world application. Extensive experiments demonstrate the superior efficacy of our method across various benchmarks. The code and web demo are available at https://github.com/BlueDyee/TF-GPH.
- Abstract(参考訳): Painterly Image Harmonizationは、異なる視覚要素を単一のコヒーレントなイメージにシームレスにブレンドすることを目的としている。
しかしながら、以前のアプローチでは、トレーニングデータ制約、時間を要する微調整の必要性、追加のプロンプトへの依存などにより、大きな制限が課されることが多い。
これらのハードルを克服するために、画像ワイドアテンション共有(TF-GPH)を用いたトレーニング・アンド・プロンプトフリーの一般絵画調和手法を設計し、新しい「共有アテンションモジュール」を統合した。
このモジュールは、一般的なトレーニングデータ制限を伴わずに、最先端の事前訓練された潜伏拡散モデルの使用を容易にし、包括的な画像の注目を可能にすることによって、従来の自己注意機構を再定義する。
さらに、我々は、クロスイメージ情報を効果的に活用し、微調整やプロンプトベースのアプローチの能力を超えた「類似性再重み付け」機構を導入し、性能を向上させる。
最終的に、既存のベンチマークの欠陥を認識し、実世界のアプリケーションをより正確に反映するために、レンジベースの評価指標を用いた"General Painterly Harmonization Benchmark"を提案する。
広範囲な実験により, 様々なベンチマークにおいて, 提案手法の優れた有効性を示す。
コードとWebデモはhttps://github.com/BlueDyee/TF-GPHで公開されている。
関連論文リスト
- Robust Classification by Coupling Data Mollification with Label Smoothing [25.66357344079206]
本稿では,ラベルのスムーズ化を図り,ラベルの信頼度を画像劣化と整合させることにより,画像のノイズ化とぼやけという形でデータモリフィケーションを結合する手法を提案する。
CIFARおよびTinyImageNetデータセットの劣化画像ベンチマークにおいて、ロバスト性および不確実性の向上を実証した。
論文 参考訳(メタデータ) (2024-06-03T16:21:29Z) - TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability [8.896239176376488]
この研究は、大規模基礎モデルにおけるゼロショット一般化を保ちながら、ゼロショット対逆ロバスト性を達成するという課題に対処する。
本稿では,ゼロショット対向性と一般化のバランスをとるテキスト・イメージ相互認識(TIMA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T22:10:17Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - Zero-Shot Image Harmonization with Generative Model Prior [22.984119094424056]
画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。
人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。
さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
論文 参考訳(メタデータ) (2023-07-17T00:56:21Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Deep Reparametrization of Multi-Frame Super-Resolution and Denoising [167.42453826365434]
本稿では,多フレーム画像復元作業によく用いられる最大後部定式化の深部再パラメータ化を提案する。
提案手法は,学習された誤差メトリックと,対象画像の潜在表現を導入することによって導かれる。
我々は、バースト復調およびバースト超解像データセットに関する包括的な実験を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2021-08-18T17:57:02Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - On Feature Normalization and Data Augmentation [55.115583969831]
モーメント交換は、認識モデルにもモーメント情報を利用するようモデルに促す。
我々は、あるトレーニングイメージの学習した特徴のモーメントを、別のトレーニングイメージのモーメントに置き換え、ターゲットラベルを補間する。
我々のアプローチは高速で、機能空間で完全に動作し、以前の方法と異なる信号が混在しているため、既存の拡張アプローチと効果的に組み合わせることができる。
論文 参考訳(メタデータ) (2020-02-25T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。