論文の概要: Zero-Shot Image Harmonization with Generative Model Prior
- arxiv url: http://arxiv.org/abs/2307.08182v1
- Date: Mon, 17 Jul 2023 00:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:14:46.602193
- Title: Zero-Shot Image Harmonization with Generative Model Prior
- Title(参考訳): 生成モデルによるゼロショット画像調和
- Authors: Jianqi Chen, Zhengxia Zou, Yilan Zhang, Keyan Chen, Zhenwei Shi
- Abstract要約: 本稿では,人間の行動から教訓を導き,ゼロショット画像調和法を提案する。
そこで本研究では,自然画像に先立って事前学習した生成モデルを用いる。
結果として生じるフレームワークは、人間の行動と極めて整合性があり、負担のかかるトレーニングなしで結果を達成することができる。
- 参考スコア(独自算出の注目度): 21.974186255975948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image harmonization methods have demonstrated promising results.
However, due to their heavy reliance on a large number of composite images,
these works are expensive in the training phase and often fail to generalize to
unseen images. In this paper, we draw lessons from human behavior and come up
with a zero-shot image harmonization method. Specifically, in the harmonization
process, a human mainly utilizes his long-term prior on harmonious images and
makes a composite image close to that prior. To imitate that, we resort to
pretrained generative models for the prior of natural images. For the guidance
of the harmonization direction, we propose an Attention-Constraint Text which
is optimized to well illustrate the image environments. Some further designs
are introduced for preserving the foreground content structure. The resulting
framework, highly consistent with human behavior, can achieve harmonious
results without burdensome training. Extensive experiments have demonstrated
the effectiveness of our approach, and we have also explored some interesting
applications.
- Abstract(参考訳): 最近の画像調和手法は有望な結果を示している。
しかし、多くの合成画像に依存するため、これらの作品は訓練段階で高価であり、しばしば目に見えない画像への一般化に失敗している。
本稿では,人間の行動からの教訓を抽出し,ゼロショット画像調和法を考案する。
具体的には、調和化過程において、人間は、主に、調和した画像に長期間の事前利用を行い、それに近い合成画像を作成する。
そこで本研究では,自然画像に先立って事前学習した生成モデルを用いる。
調和方向の指導のために,画像環境を適切に表現するために最適化された注意制約テキストを提案する。
前景のコンテンツ構造を保存するために、さらにいくつかの設計が導入された。
結果として生じる枠組みは、人間の行動と極めて整合性があり、負担のかかるトレーニングを伴わずに調和した結果が得られる。
広範な実験により,本手法の有効性が実証され,興味深い応用例も検討した。
関連論文リスト
- Causal Image Modeling for Efficient Visual Understanding [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Integrating View Conditions for Image Synthesis [14.738884513493227]
本稿では、視点情報を統合して画像編集タスクの制御を強化する先駆的なフレームワークを提案する。
我々は、画像編集法で満たすべき3つの必須基準、一貫性、可制御性、調和を蒸留する。
論文 参考訳(メタデータ) (2023-10-24T16:55:07Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models [13.019535928387702]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。