論文の概要: Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion
- arxiv url: http://arxiv.org/abs/2402.16305v1
- Date: Mon, 26 Feb 2024 05:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:34:16.500767
- Title: Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion
- Title(参考訳): Referee Can Play: モデル反転による条件生成への代替的アプローチ
- Authors: Xuantong Liu, Tianyang Hu, Wenjia Wang, Kenji Kawaguchi, Yuan Yao
- Abstract要約: 拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
- 参考スコア(独自算出の注目度): 35.21106030549071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a dominant force in text-to-image generation tasks, Diffusion
Probabilistic Models (DPMs) face a critical challenge in controllability,
struggling to adhere strictly to complex, multi-faceted instructions. In this
work, we aim to address this alignment challenge for conditional generation
tasks. First, we provide an alternative view of state-of-the-art DPMs as a way
of inverting advanced Vision-Language Models (VLMs). With this formulation, we
naturally propose a training-free approach that bypasses the conventional
sampling process associated with DPMs. By directly optimizing images with the
supervision of discriminative VLMs, the proposed method can potentially achieve
a better text-image alignment. As proof of concept, we demonstrate the pipeline
with the pre-trained BLIP-2 model and identify several key designs for improved
image generation. To further enhance the image fidelity, a Score Distillation
Sampling module of Stable Diffusion is incorporated. By carefully balancing the
two components during optimization, our method can produce high-quality images
with near state-of-the-art performance on T2I-Compbench.
- Abstract(参考訳): テキスト対画像生成タスクにおける支配的な力として、拡散確率モデル(dpm)は制御可能性の重大な課題に直面し、複雑で多面的な命令に厳密に固執するのに苦労している。
本研究では,条件生成タスクのアライメント問題に対処することを目的とする。
まず,先進的視覚言語モデル(vlms)を反転する方法として,最先端dpmの代替視点を提案する。
この定式化により,dpmsに関連する従来のサンプリングプロセスをバイパスするトレーニングフリーな手法を自然に提案する。
差別的VLMを監督した画像を直接最適化することにより,より優れたテキスト画像アライメントを実現することができる。
概念実証として,事前学習したblip-2モデルを用いてパイプラインを実証し,画像生成のためのいくつかの重要な設計を明らかにした。
画像忠実度をさらに高めるため、安定した拡散のスコア蒸留サンプリングモジュールが組み込まれている。
T2I-Compbenchでは,最適化中に2つのコンポーネントを慎重にバランスさせることで,ほぼ最先端の性能を持つ高品質な画像を生成することができる。
関連論文リスト
- DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
提案手法は,複雑なテクスチャプロンプトから複数のオブジェクトを生成する際の制御性と整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [73.8274638090392]
本稿では,事前訓練したテキスト・画像拡散モデルを利用したブラインド画像復元問題に対するDiffBIRを提案する。
本稿では, インジェクティブ変調サブネットワーク -- LAControlNet を微調整用として導入し, 事前学習した安定拡散はその生成能力を維持することを目的としている。
実験では、ブラインド画像の超解像とブラインド顔復元の両タスクにおいて、最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - CDPMSR: Conditional Diffusion Probabilistic Models for Single Image
Super-Resolution [91.56337748920662]
拡散確率モデル(DPM)は画像から画像への変換において広く採用されている。
単純だが自明なDPMベースの超解像後処理フレームワーク,すなわちcDPMSRを提案する。
本手法は, 定性的および定量的な結果の両面において, 先行試行を超越した手法である。
論文 参考訳(メタデータ) (2023-02-14T15:13:33Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models [22.84873720309945]
DDPMにおける生成過程を誘導し,高品質な画像を生成するために,反復潜時可変リファインメント(ILVR)を提案する。
提案手法は,生成を制御しながら高品質な画像を生成する。
論文 参考訳(メタデータ) (2021-08-06T04:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。