論文の概要: CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2406.10462v1
- Date: Sat, 15 Jun 2024 01:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:22:43.650846
- Title: CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation
- Title(参考訳): CoMM:マルチモーダル理解・生成のためのコヒーレントインターリーブ画像テキストデータセット
- Authors: Wei Chen, Lin Li, Yongqi Yang, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, Long Chen,
- Abstract要約: 我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために設計された高品質なデータセットであるCoMMを紹介する。
CoMMは、教育内容とビジュアルストーリーテリングに焦点を当て、多様なソースからの生データを活用する。
さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
- 参考スコア(独自算出の注目度): 20.106207598099363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interleaved image-text generation has emerged as a crucial multimodal task, aiming at creating sequences of interleaved visual and textual content given a query. Despite notable advancements in recent multimodal large language models (MLLMs), generating integrated image-text sequences that exhibit narrative coherence and entity and style consistency remains challenging due to poor training data quality. To address this gap, we introduce CoMM, a high-quality Coherent interleaved image-text MultiModal dataset designed to enhance the coherence, consistency, and alignment of generated multimodal content. Initially, CoMM harnesses raw data from diverse sources, focusing on instructional content and visual storytelling, establishing a foundation for coherent and consistent content. To further refine the data quality, we devise a multi-perspective filter strategy that leverages advanced pre-trained models to ensure the development of sentences, consistency of inserted images, and semantic alignment between them. Various quality evaluation metrics are designed to prove the high quality of the filtered dataset. Meanwhile, extensive few-shot experiments on various downstream tasks demonstrate CoMM's effectiveness in significantly enhancing the in-context learning capabilities of MLLMs. Moreover, we propose four new tasks to evaluate MLLMs' interleaved generation abilities, supported by a comprehensive evaluation framework. We believe CoMM opens a new avenue for advanced MLLMs with superior multimodal in-context learning and understanding ability.
- Abstract(参考訳): インターリーブ画像テキスト生成は、クエリーを与えられたインターリーブ画像とテキストのシーケンスを作成することを目的として、重要なマルチモーダルタスクとして登場した。
最近のマルチモーダル大規模言語モデル(MLLM)の顕著な進歩にもかかわらず、物語の一貫性と実体とスタイルの整合性を示す統合された画像テキストシーケンスを生成することは、トレーニングデータの品質が低いため、依然として困難である。
このギャップに対処するため、我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために、高品質なコヒーレント・コヒーレント・インターリーブド・イメージ・テキスト・マルチモーダル・データセットであるCoMMを紹介した。
当初、CoMMは多様な情報源からの生データを活用し、指導的コンテンツと視覚的ストーリーテリングに焦点をあて、一貫性と一貫性のあるコンテンツの基礎を確立した。
データ品質をさらに改善するため,先進的な事前学習モデルを利用して文の開発,挿入画像の整合性,意味的整合性を確保するマルチパースペクティブフィルタ戦略を考案した。
さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
一方、様々なダウンストリームタスクに対する広範囲な数ショット実験は、MLLMの文脈内学習能力を著しく向上させるCoMMの有効性を示す。
さらに,包括的評価フレームワークを用いてMLLMのインターリーブ世代能力を評価するための4つの新しいタスクを提案する。
我々は、CoMMがより優れたマルチモーダルインコンテキスト学習と理解能力を持つ高度なMLLMのための新たな道を開くと信じている。
関連論文リスト
- CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.451422869974557]
本稿では,マルチモーダルテキスト検索パイプラインであるMLLM (CUE-M) について述べる。
マルチモーダルなQ&Aデータセットとパブリックセーフティベンチマークによる評価は、CUE-Mが精度、知識統合、安全性のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。
その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。