論文の概要: Object-centric Self-improving Preference Optimization for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2506.02015v1
- Date: Wed, 28 May 2025 03:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.78301
- Title: Object-centric Self-improving Preference Optimization for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のためのオブジェクト指向自己改善優先最適化
- Authors: Yoonjin Oh, Yongjin Kim, Hyomin Kim, Donghwan Chi, Sungwoong Kim,
- Abstract要約: MLLMによるテキスト・画像生成のためのオブジェクト中心の自己改善型優先度最適化フレームワークを提案する。
OSPOは、効率的な選好最適化に欠かせない高品質な選好ペアデータの重要性を強調している。
我々はOSPOを3つの代表的な合成テキスト・イメージ・ベンチマークで検証し、ベースラインモデルよりもかなりの性能向上を示した。
- 参考スコア(独自算出の注目度): 10.87176643368746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have significantly improved both image understanding and generation capabilities. Despite these improvements, MLLMs still struggle with fine-grained visual comprehension, particularly in text-to-image generation tasks. While preference optimization methods have been explored to address these limitations in image understanding tasks, their application to image generation remains largely underexplored. To address this gap, we propose an Object-centric Self-improving Preference Optimization (OSPO) framework designed for text-to-image generation by MLLMs. OSPO leverages the intrinsic reasoning abilities of MLLMs without requiring any external datasets or models. OSPO emphasizes the importance of high-quality preference pair data, which is critical for effective preference optimization. To achieve this, it introduces a self-improving mechanism that autonomously constructs object-level contrastive preference pairs through object-centric prompt perturbation, densification and VQA scoring. This process eliminates ambiguous or disproportionate variations commonly found in naively generated preference pairs, thereby enhancing the effectiveness of preference optimization. We validate OSPO on three representative compositional text-to-image benchmarks, demonstrating substantial performance gains over baseline models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、画像理解と生成能力の両方を大幅に改善している。
これらの改善にもかかわらず、MLLMは細かな視覚的理解、特にテキスト・画像生成タスクに苦戦している。
画像理解タスクにおけるこれらの制限に対処するために、選好最適化手法が検討されているが、画像生成への応用については、未検討のままである。
このギャップに対処するために,MLLMによるテキスト・ツー・イメージ生成のためのオブジェクト指向自己改善優先最適化(OSPO)フレームワークを提案する。
OSPOは、外部データセットやモデルを必要としないMLLMの本質的な推論能力を活用する。
OSPOは、効率的な選好最適化に欠かせない高品質な選好ペアデータの重要性を強調している。
これを実現するために、オブジェクト中心の急激な摂動、密度化、VQAスコアリングを通じて、オブジェクトレベルのコントラスト的選好ペアを自律的に構築する自己改善機構を導入する。
このプロセスは、ナイーティブ生成された選好ペアに共通する曖昧さや不均質なバリエーションを排除し、選好最適化の有効性を高める。
我々はOSPOを3つの代表的な合成テキスト・イメージ・ベンチマークで検証し、ベースラインモデルよりもかなりの性能向上を示した。
関連論文リスト
- Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - AdaViP: Aligning Multi-modal LLMs via Adaptive Vision-enhanced Preference Optimization [26.03204301595711]
本稿では,2つの重要なイノベーションを通じて制限に対処する適応型視覚強調最適化(AdaViP)を提案する。
視覚に基づく選好ペア構築は、複数の視覚基盤モデルを統合し、画像から重要な視覚要素を戦略的に除去する。
AdaViP-7Bは、Object HalBench上でそれぞれ応答レベルと言及レベルの幻覚を93.7%、96.4%減少させる。
論文 参考訳(メタデータ) (2025-04-22T06:19:38Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効である
しばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。
テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。