論文の概要: MCM-DPO: Multifaceted Cross-Modal Direct Preference Optimization for Alt-text Generation
- arxiv url: http://arxiv.org/abs/2510.00647v1
- Date: Wed, 01 Oct 2025 08:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.463633
- Title: MCM-DPO: Multifaceted Cross-Modal Direct Preference Optimization for Alt-text Generation
- Title(参考訳): MCM-DPO:Altテキスト生成のための多面的クロスモーダル直接参照最適化
- Authors: Jinlan Fu, Shenzhen Huangfu, Hao Fei, Yichong Huang, Xiaoyu Shen, Xipeng Qiu, See-Kiong Ng,
- Abstract要約: MCM-DPOは、正確なアノテーションを必要とせず、好みのペアでより良い選択肢を識別することを学ぶことで、alt-text生成を改善する。
高品質アノテートデータセットと選好ラベル付きデータセットが不足していることから,我々はTAltとPAltという2つの大規模かつ高品質なデータセットを構築した。
MCM-DPO法はDPO法とSFT法を相反する性能を示した。
- 参考スコア(独自算出の注目度): 98.76036290106316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alt-text generation task produces concise, context-relevant descriptions of images, enabling blind and low-vision users to access online images. Despite the capabilities of large vision-language models, alt-text generation performance remains limited due to noisy user annotations, inconsistent standards, and MLLMs' insensitivity to contextual information. Previous efforts to fine-tune MLLMs using supervised fine-tuning (SFT) have struggled, as SFT relies on accurate target annotations, which are often flawed in user-generated alt-text. To address this, we propose Multi-faceted Cross-modal Direct Preference Optimization (MCM-DPO), which improves alt-text generation by learning to identify better options in preference pairs without requiring precise annotations. MCM-DPO optimizes preferences across single, paired, and multi-preference dimensions, covering textual, visual, and cross-modal factors. In light of the scarcity of high-quality annotated and preference-labeled datasets for alt-text, we constructed two large-scale, high-quality datasets named TAlt and PAlt, sourced from Twitter and Pinterest. These datasets include 202k annotated alt-text samples and 18k preference pairs that cover diverse preference dimensions, aiming to support further research in this domain. Experimental results show that our proposed MCM-DPO method consistently outperforms both DPO and SFT, establishing a new state of the art in alt-text generation. We release the code and data here: https://github.com/LVUGAI/MCM-DPO
- Abstract(参考訳): アルトテキスト生成タスクは、画像の簡潔でコンテキストに依存した記述を生成し、視覚障害者や低ビジョンユーザーがオンライン画像にアクセスできるようにする。
大規模な視覚言語モデルの能力にもかかわらず、雑音の多いユーザアノテーション、一貫性のない標準、文脈情報に対するMLLMの過敏性のために、アルトテキスト生成性能は制限されている。
教師付き微調整(SFT)を使用してMLLMを微調整する以前の取り組みは、ユーザ生成のalt-textにしばしば欠陥がある正確なターゲットアノテーションに依存しているため、難航している。
そこで本稿では,より正確なアノテーションを必要とせず,より優れた選択肢を選好ペアで識別する学習により,alt-text生成を改善する多面的クロスモーダル直接参照最適化(MCM-DPO)を提案する。
MCM-DPOは、テキスト、ビジュアル、およびクロスモーダルな要素をカバーし、単一の、ペア化された、そして複数の参照次元の好みを最適化する。
alt-text用の高品質な注釈付きデータセットと好みラベル付きデータセットが不足していることを踏まえ、TwitterとPinterestのソースであるTAltとPAltという2つの大規模で高品質なデータセットを構築しました。
これらのデータセットには202kの注釈付きalt-textサンプルと18kの選好ペアが含まれており、この領域におけるさらなる研究を支援することを目的としている。
実験結果から,提案手法はDPOとSFTの両方を一貫して上回り,alt-text 生成における新たな最先端技術を確立した。
https://github.com/LVUGAI/MCM-DPO.com/MCM-DPO.com/MCM-DPO
関連論文リスト
- Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs [36.42060582800515]
本稿では,T2Iモデルの"フリーランチ"アライメントを可能にするフレームワークであるText Preference Optimization (TPO)を紹介する。
TPOは、ミスマッチしたプロンプトよりもマッチしたプロンプトを好むようにモデルを訓練することで機能する。
我々のフレームワークは汎用的で、既存の嗜好ベースのアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-09-30T04:32:34Z) - Captioning for Text-Video Retrieval via Dual-Group Direct Preference Optimization [30.445325065182868]
補助キャプションは、しばしばビデオ理解を強化するために使われ、モダリティ間のギャップを埋める。
本稿では,検索関連スコアを用いた字幕生成を直接最適化する検索フレームワークである$textbfCaRe-DPOを提案する。
本研究では,CaRe-DPOが補助知識を効果的に活用して検索のためのきめ細かいキャプションを生成することにより,検索性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-09-20T07:36:53Z) - Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - OSPO: Object-centric Self-improving Preference Optimization for Text-to-Image Generation [9.584960092259033]
Object-centric Self-Iproving Preference Optimization (OSPO)は、オブジェクトレベルのテキストイメージアライメントを強化するための自己改善フレームワークである。
OSPOはテキスト・画像生成における微粒化アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-05-28T03:45:42Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。