論文の概要: YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment
- arxiv url: http://arxiv.org/abs/2502.03512v1
- Date: Wed, 05 Feb 2025 18:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:54.448350
- Title: YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment
- Title(参考訳): YINYANG-ALIGN:テキストと画像のアライメントのためのコントラクティブオブジェクトのベンチマークと多目的最適化に基づくDPOの提案
- Authors: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth,
- Abstract要約: YinYangAlignは、テキスト・トゥ・イメージ(T2I)システムのアライメント忠実度を体系的に定量化するフレームワークである。
6つの基本的かつ本質的に矛盾する設計目標に対処する。
YinYangAlignには、人間のプロンプト、アライメントされた(コセン)応答、AI生成出力のミスアライメント(拒絶)、根底にある矛盾の説明を含む詳細なデータセットが含まれている。
- 参考スコア(独自算出の注目度): 6.120756739633247
- License:
- Abstract: Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that generated visuals not only accurately encapsulate user intents but also conform to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini fiasco, where misaligned outputs triggered significant public backlash, underscore the critical need for robust alignment mechanisms. In contrast, Large Language Models (LLMs) have achieved notable success in alignment. Building on these advancements, researchers are eager to apply similar alignment techniques, such as Direct Preference Optimization (DPO), to T2I systems to enhance image generation fidelity and reliability. We present YinYangAlign, an advanced benchmarking framework that systematically quantifies the alignment fidelity of T2I systems, addressing six fundamental and inherently contradictory design objectives. Each pair represents fundamental tensions in image generation, such as balancing adherence to user prompts with creative modifications or maintaining diversity alongside visual coherence. YinYangAlign includes detailed axiom datasets featuring human prompts, aligned (chosen) responses, misaligned (rejected) AI-generated outputs, and explanations of the underlying contradictions.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)システムにおける正確なアライメントは、生成した視覚がユーザの意図を正確にカプセル化するだけでなく、厳密な倫理的および美的ベンチマークにも適合することを保証するために重要である。
Google Geminiの不正なアウトプットが大衆の反発を招いたようなインシデントは、ロバストなアライメントメカニズムの必要性を浮き彫りにした。
対照的に、LLM(Large Language Models)はアライメントにおいて顕著な成功を収めている。
これらの進歩に基づいて、研究者は画像生成の忠実さと信頼性を高めるために、直接選好最適化(DPO)のような類似のアライメント手法をT2Iシステムに適用することを熱望している。
本稿では,T2Iシステムのアライメント忠実度を体系的に定量化する高度なベンチマークフレームワークであるYinYangAlignについて述べる。
それぞれのペアは、創造的な修正によるユーザプロンプトの遵守のバランスや、視覚的コヒーレンスと並行して多様性の維持など、画像生成における基本的な緊張関係を表している。
YinYangAlignには、人間のプロンプト、アライメント(コセン)応答、AI生成出力のミスアライメント(拒否)、根底にある矛盾の説明を含む詳細な公理データセットが含まれている。
関連論文リスト
- Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - Discriminative Probing and Tuning for Text-to-Image Generation [129.39674951747412]
テキスト・ツー・イメージ生成(T2I)は、しばしば、生成された画像における関係の混乱のようなテキスト・イメージの誤調整問題に直面している。
本稿では,T2Iモデルの識別能力を向上し,より正確なテキストと画像のアライメントを実現することを提案する。
本稿では,T2Iモデル上に構築された識別アダプターを用いて,2つの代表課題における識別能力を探索し,テキスト画像のアライメントを改善するために識別微調整を利用する。
論文 参考訳(メタデータ) (2024-03-07T08:37:33Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。