論文の概要: Zero-Shot Image Harmonization with Generative Model Prior
- arxiv url: http://arxiv.org/abs/2307.08182v2
- Date: Mon, 11 Mar 2024 14:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:47:27.894962
- Title: Zero-Shot Image Harmonization with Generative Model Prior
- Title(参考訳): 生成モデルによるゼロショット画像調和
- Authors: Jianqi Chen, Yilan Zhang, Zhengxia Zou, Keyan Chen, Zhenwei Shi
- Abstract要約: 画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。
人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。
さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
- 参考スコア(独自算出の注目度): 22.984119094424056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a zero-shot approach to image harmonization, aiming to overcome
the reliance on large amounts of synthetic composite images in existing
methods. These methods, while showing promising results, involve significant
training expenses and often struggle with generalization to unseen images. To
this end, we introduce a fully modularized framework inspired by human
behavior. Leveraging the reasoning capabilities of recent foundation models in
language and vision, our approach comprises three main stages. Initially, we
employ a pretrained vision-language model (VLM) to generate descriptions for
the composite image. Subsequently, these descriptions guide the foreground
harmonization direction of a text-to-image generative model (T2I). We refine
text embeddings for enhanced representation of imaging conditions and employ
self-attention and edge maps for structure preservation. Following each
harmonization iteration, an evaluator determines whether to conclude or modify
the harmonization direction. The resulting framework, mirroring human behavior,
achieves harmonious results without the need for extensive training. We present
compelling visual results across diverse scenes and objects, along with a user
study validating the effectiveness of our approach.
- Abstract(参考訳): 本稿では,既存の合成合成画像への依存を克服するために,画像調和のためのゼロショットアプローチを提案する。
これらの手法は、有望な結果を示す一方で、かなりのトレーニング費用を伴い、しばしば目に見えない画像の一般化に苦しむ。
この目的のために,人間の行動に触発された完全なモジュール化フレームワークを導入する。
最近の基礎モデルの言語とビジョンの推論能力を活用することで、このアプローチは3つの主要なステージからなる。
まず,訓練済み視覚言語モデル(vlm)を用いて合成画像の記述を生成する。
その後、これらの記述は、テキスト対画像生成モデル(t2i)の前景調和方向を導く。
画像表現の強化のためにテキスト埋め込みを洗練し,構造保存にセルフアテンションとエッジマップを用いた。
各調和反復に続いて、評価器は調和方向を終了するか変更するかを決定する。
結果として生じる枠組みは、人間の振る舞いを反映し、広範な訓練を必要とせずに調和した結果が得られる。
様々なシーンやオブジェクトにまたがる説得力のある視覚的結果と,アプローチの有効性を検証するユーザスタディを提示する。
関連論文リスト
- Causal Image Modeling for Efficient Visual Understanding [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Integrating View Conditions for Image Synthesis [14.738884513493227]
本稿では、視点情報を統合して画像編集タスクの制御を強化する先駆的なフレームワークを提案する。
我々は、画像編集法で満たすべき3つの必須基準、一貫性、可制御性、調和を蒸留する。
論文 参考訳(メタデータ) (2023-10-24T16:55:07Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models [13.019535928387702]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。