論文の概要: Training-and-Prompt-Free General Painterly Harmonization via Zero-Shot Disentenglement on Style and Content References
- arxiv url: http://arxiv.org/abs/2404.12900v2
- Date: Sun, 15 Dec 2024 14:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:51.660455
- Title: Training-and-Prompt-Free General Painterly Harmonization via Zero-Shot Disentenglement on Style and Content References
- Title(参考訳): ゼロショットディペンデングによる学習とプロンプトフリーの一般絵画の調和 : スタイルと内容に関する考察
- Authors: Teng-Fang Hsiao, Bo-Kai Ruan, Hong-Han Shuai,
- Abstract要約: トレーニング・アンド・プロンプトフリーの一般絵画調和法(TF-GPH)を提案する。
TF-GPHは、前景の内容と背景像を歪ませる小説『Simisity Disentangle Mask'』を取り入れている。
また,スタイル化とコンテンツ保存の調和を両立させる「類似度強調」機構を提案する。
- 参考スコア(独自算出の注目度): 20.189124622271446
- License:
- Abstract: Painterly image harmonization aims at seamlessly blending disparate visual elements within a single image. However, previous approaches often struggle due to limitations in training data or reliance on additional prompts, leading to inharmonious and content-disrupted output. To surmount these hurdles, we design a Training-and-prompt-Free General Painterly Harmonization method (TF-GPH). TF-GPH incorporates a novel ``Similarity Disentangle Mask'', which disentangles the foreground content and background image by redirecting their attention to corresponding reference images, enhancing the attention mechanism for multi-image inputs. Additionally, we propose a ``Similarity Reweighting'' mechanism to balance harmonization between stylization and content preservation. This mechanism minimizes content disruption by prioritizing the content-similar features within the given background style reference. Finally, we address the deficiencies in existing benchmarks by proposing novel range-based evaluation metrics and a new benchmark to better reflect real-world applications. Extensive experiments demonstrate the efficacy of our method in all benchmarks. More detailed in https://github.com/BlueDyee/TF-GPH.
- Abstract(参考訳): Painterly Image harmonization は、異なる視覚要素を1つの画像にシームレスにブレンドすることを目的としている。
しかし、以前のアプローチはトレーニングデータの制限や追加のプロンプトへの依存のためにしばしば苦労する。
これらのハードルを克服するために、トレーニングとプロンプトのない一般絵画調和法(TF-GPH)を設計する。
TF-GPHは「Similarity Disentangle Mask'」という小説を取り入れており、複数画像入力の注意機構を強化し、対応する参照画像に注意を向けることで、前景の内容と背景画像を歪めている。
また,スタイル化とコンテンツ保存の調和を両立させる「類似度強調」機構を提案する。
このメカニズムは、所定のバックグラウンドスタイルの参照内で、コンテンツ類似の特徴を優先順位付けすることで、コンテンツの破壊を最小限にする。
最後に,新しい範囲評価指標と実世界のアプリケーションをよりよく反映する新しいベンチマークを提案することで,既存のベンチマークの欠陥に対処する。
全てのベンチマークにおいて,本手法の有効性を示す実験を行った。
詳しくはhttps://github.com/BlueDyee/TF-GPHを参照。
関連論文リスト
- Robust Classification by Coupling Data Mollification with Label Smoothing [25.66357344079206]
本稿では,ラベルのスムーズ化を図り,ラベルの信頼度を画像劣化と整合させることにより,画像のノイズ化とぼやけという形でデータモリフィケーションを結合する手法を提案する。
CIFARおよびTinyImageNetデータセットの劣化画像ベンチマークにおいて、ロバスト性および不確実性の向上を実証した。
論文 参考訳(メタデータ) (2024-06-03T16:21:29Z) - TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability [8.896239176376488]
この研究は、大規模基礎モデルにおけるゼロショット一般化を保ちながら、ゼロショット対逆ロバスト性を達成するという課題に対処する。
本稿では,ゼロショット対向性と一般化のバランスをとるテキスト・イメージ相互認識(TIMA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T22:10:17Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - Zero-Shot Image Harmonization with Generative Model Prior [22.984119094424056]
画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。
人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。
さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
論文 参考訳(メタデータ) (2023-07-17T00:56:21Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Deep Reparametrization of Multi-Frame Super-Resolution and Denoising [167.42453826365434]
本稿では,多フレーム画像復元作業によく用いられる最大後部定式化の深部再パラメータ化を提案する。
提案手法は,学習された誤差メトリックと,対象画像の潜在表現を導入することによって導かれる。
我々は、バースト復調およびバースト超解像データセットに関する包括的な実験を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2021-08-18T17:57:02Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - On Feature Normalization and Data Augmentation [55.115583969831]
モーメント交換は、認識モデルにもモーメント情報を利用するようモデルに促す。
我々は、あるトレーニングイメージの学習した特徴のモーメントを、別のトレーニングイメージのモーメントに置き換え、ターゲットラベルを補間する。
我々のアプローチは高速で、機能空間で完全に動作し、以前の方法と異なる信号が混在しているため、既存の拡張アプローチと効果的に組み合わせることができる。
論文 参考訳(メタデータ) (2020-02-25T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。