論文の概要: A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation
- arxiv url: http://arxiv.org/abs/2506.09427v1
- Date: Wed, 11 Jun 2025 06:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.576984
- Title: A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation
- Title(参考訳): インターリーブ画像テキスト生成のための高品質データセットと信頼性評価
- Authors: Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang,
- Abstract要約: 本稿では,SEIR(Self-Evaluation with Iterative Refinement)法を用いて構築した大規模マルチモーダルデータセットであるInterSynを紹介する。
InterSynは、強くインターリーブされた画像テキスト応答を備えたマルチターン、命令駆動対話を備えている。
インターリーブ型マルチモーダル出力を評価できる信頼性評価ツールの欠如に対処するため,SynJudgeを紹介した。
- 参考スコア(独自算出の注目度): 14.590341095970883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Multimodal Models (LMMs) have significantly improved multimodal understanding and generation. However, these models still struggle to generate tightly interleaved image-text outputs, primarily due to the limited scale, quality and instructional richness of current training datasets. To address this, we introduce InterSyn, a large-scale multimodal dataset constructed using our Self-Evaluation with Iterative Refinement (SEIR) method. InterSyn features multi-turn, instruction-driven dialogues with tightly interleaved imagetext responses, providing rich object diversity and rigorous automated quality refinement, making it well-suited for training next-generation instruction-following LMMs. Furthermore, to address the lack of reliable evaluation tools capable of assessing interleaved multimodal outputs, we introduce SynJudge, an automatic evaluation model designed to quantitatively assess multimodal outputs along four dimensions: text content, image content, image quality, and image-text synergy. Experimental studies show that the SEIR method leads to substantially higher dataset quality compared to an otherwise identical process without refinement. Moreover, LMMs trained on InterSyn achieve uniform performance gains across all evaluation metrics, confirming InterSyn's utility for advancing multimodal systems.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、多モーダル理解と生成を大幅に改善した。
しかし、これらのモデルは、主に現在のトレーニングデータセットの限られたスケール、品質、教育的豊かさのために、厳密にインターリーブされた画像テキスト出力を生成するのに苦慮している。
この問題に対処するため,我々はSEIR(Self-Evaluation with Iterative Refinement)法を用いて構築した大規模マルチモーダルデータセットであるInterSynを紹介した。
InterSynはマルチターン・インストラクション駆動の対話と密にインターリーブされたイメージテキスト応答を備え、リッチなオブジェクトの多様性と厳格な自動品質向上を提供し、次世代の命令追従型LMMのトレーニングに適している。
さらに、インターリーブされたマルチモーダル出力を評価することのできる信頼性評価ツールの欠如に対処するため、テキストコンテンツ、画像コンテンツ、画質、画像テキストの相乗効果の4次元に沿って、マルチモーダル出力を定量的に評価する自動評価モデルであるSynJudgeを導入する。
実験により,SEIR法は改良を伴わないプロセスに比べて,データセットの品質が著しく向上することが示された。
さらに、InterSynでトレーニングされたLMMは、すべての評価指標に対して均一な性能向上を実現し、マルチモーダルシステムの進歩に対するInterSynの有用性を確認した。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation [20.106207598099363]
我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために設計された高品質なデータセットであるCoMMを紹介する。
CoMMは、教育内容とビジュアルストーリーテリングに焦点を当て、多様なソースからの生データを活用する。
さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T01:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。