論文の概要: CHATS: Combining Human-Aligned Optimization and Test-Time Sampling for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2502.12579v1
- Date: Tue, 18 Feb 2025 06:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:05.502023
- Title: CHATS: Combining Human-Aligned Optimization and Test-Time Sampling for Text-to-Image Generation
- Title(参考訳): CHATS: テキスト・画像生成のためのヒューマンアライン最適化とテスト時間サンプリングを組み合わせる
- Authors: Minghao Fu, Guo-Hua Wang, Liangfu Cao, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang,
- Abstract要約: 人間の嗜好アライメントのような重要なコンポーネントは、生成品質を保証する上で重要な役割を果たす。
そこで我々はCHATS(Combining Human-Aligned Optimization and Test-time Sampling)を紹介した。
我々はCHATSが例外的なデータ効率を示すことを観察し、小型で高品質な漏えいデータセットでのみ強力な性能を達成する。
- 参考スコア(独自算出の注目度): 22.139826276559724
- License:
- Abstract: Diffusion models have emerged as a dominant approach for text-to-image generation. Key components such as the human preference alignment and classifier-free guidance play a crucial role in ensuring generation quality. However, their independent application in current text-to-image models continues to face significant challenges in achieving strong text-image alignment, high generation quality, and consistency with human aesthetic standards. In this work, we for the first time, explore facilitating the collaboration of human performance alignment and test-time sampling to unlock the potential of text-to-image models. Consequently, we introduce CHATS (Combining Human-Aligned optimization and Test-time Sampling), a novel generative framework that separately models the preferred and dispreferred distributions and employs a proxy-prompt-based sampling strategy to utilize the useful information contained in both distributions. We observe that CHATS exhibits exceptional data efficiency, achieving strong performance with only a small, high-quality funetuning dataset. Extensive experiments demonstrate that CHATS surpasses traditional preference alignment methods, setting new state-of-the-art across various standard benchmarks.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成の主流のアプローチとして現れてきた。
人選好アライメントや分類子なしガイダンスといった重要なコンポーネントは、生成品質の確保に重要な役割を果たす。
しかしながら、現在のテキスト・ツー・イメージモデルにおける彼らの独立した応用は、強いテキスト・イメージアライメント、高世代品質、人間の美的基準との整合性を達成する上で、大きな課題に直面し続けている。
本研究は,ヒトのパフォーマンスアライメントとテスト時間サンプリングの協調による,テキスト・ツー・イメージ・モデルの可能性を解き放つことを目的とした研究である。
提案するCHATS(Combining Human-Aligned Optimization and Test-time Smpling)は,好ましくも好ましくない分布を別々にモデル化し,プロキシプロンプトに基づくサンプリング戦略を用いて,両分布に含まれる有用な情報を利用する新しい生成フレームワークである。
我々はCHATSが例外的なデータ効率を示すことを観察し、小型で高品質な漏えいデータセットでのみ強力な性能を達成する。
広範な実験により、CHATSは従来の選好アライメント手法を超越し、様々な標準ベンチマークで新しい最先端を設定できることを示した。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Self-Adversarial Learning with Comparative Discrimination for Text
Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。
トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。
テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文 参考訳(メタデータ) (2020-01-31T07:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。