論文の概要: Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text
- arxiv url: http://arxiv.org/abs/2506.02494v1
- Date: Tue, 03 Jun 2025 06:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.315407
- Title: Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text
- Title(参考訳): Minos: 画像とテキスト間の双方向生成のためのマルチモーダル評価モデル
- Authors: Junzhe Zhang, Huixuan Zhang, Xinyu Hu, Li Lin, Mingqi Gao, Shi Qiu, Xiaojun Wan,
- Abstract要約: 我々は,人間とGPTの両方による評価データを組み合わせた大規模マルチモーダル評価データセットであるMinos-Corpusを紹介する。
このコーパスに基づいて,データ選択とバランス,混合SFTトレーニング手法を提案し,DPOをミノの開発に適用する。
- 参考スコア(独自算出の注目度): 51.149562188883486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation is important for multimodal generation tasks. With the rapid progress of MLLMs, there is growing interest in applying MLLMs to build general evaluation systems. However, existing work overlooks two aspects: (1) the development of evaluation capabilities for text-to-image (T2I) generation task, and (2) the incorporation of large-scale human evaluation data. In this paper, we introduce Minos-Corpus, a large-scale multimodal evaluation dataset that combines evaluation data from both human and GPT. The corpus contains evaluation data across both image-to-text(I2T) and T2I generation tasks. Based on this corpus, we propose Data Selection and Balance, Mix-SFT training methods, and apply DPO to develop Minos, a multimodal evaluation model built upon a 7B backbone. Minos achieves state-of-the-art (SoTA) performance among all open-source evaluation models of similar scale on the average of evaluation performance on all tasks, and outperforms all open-source and closed-source models on evaluation of T2I generation task. Extensive experiments demonstrate the importance of leveraging high-quality human evaluation data and jointly training on evaluation data from both I2T and T2I generation tasks.
- Abstract(参考訳): マルチモーダル生成タスクでは評価が重要である。
MLLMの急速な進歩に伴い、一般評価システムの構築にMLLMを適用することへの関心が高まっている。
しかし,既存の作業は,(1)テキスト・ツー・イメージ(T2I)生成タスクの評価機能の開発,(2)大規模人的評価データの導入という2つの側面を軽視している。
本稿では,人間とGPTの両方による評価データを組み合わせた大規模マルチモーダル評価データセットであるMinos-Corpusを紹介する。
コーパスは、画像テキスト(I2T)とT2I生成タスクの両方にわたる評価データを含む。
このコーパスに基づき、7Bバックボーン上に構築されたマルチモーダル評価モデルであるミノの開発にDPOを適用し,データ選択とバランス,混合SFTトレーニング手法を提案する。
Minosは、あらゆるタスクにおける評価性能の平均において、同様の規模の全てのオープンソース評価モデルのうち、最先端(SoTA)のパフォーマンスを達成し、T2I生成タスクの評価において、すべてのオープンソースおよびクローズドソースモデルより優れています。
大規模な実験は、高品質な人的評価データを活用することの重要性と、I2TとT2Iの生成タスクからの評価データを共同で訓練することの重要性を実証する。
関連論文リスト
- Multi-Modal Language Models as Text-to-Image Model Evaluators [16.675735328424786]
MT2IE(Multimodal Text-to-Image Eval)は、評価のためのプロンプトを反復的に生成する評価フレームワークである。
MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
論文 参考訳(メタデータ) (2025-05-01T17:47:55Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では, ベイズ最適化を用いたデータ選択手法として, 影響関数をインターリーブし, 特定の未確認評価タスクからのフィードバックによるデータ混合を最適化する, グローバル・ローカルなアルゴリズムを提案する。
DUETの累積的後悔を解析することにより、DUETはタスクに関するデータ知識がなくても、見えないタスクに対して最適なトレーニングデータ混合に収束することを示す。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。
評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文 参考訳(メタデータ) (2024-05-20T16:47:22Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。