論文の概要: CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2406.10462v1
- Date: Sat, 15 Jun 2024 01:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:22:43.650846
- Title: CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation
- Title(参考訳): CoMM:マルチモーダル理解・生成のためのコヒーレントインターリーブ画像テキストデータセット
- Authors: Wei Chen, Lin Li, Yongqi Yang, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, Long Chen,
- Abstract要約: 我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために設計された高品質なデータセットであるCoMMを紹介する。
CoMMは、教育内容とビジュアルストーリーテリングに焦点を当て、多様なソースからの生データを活用する。
さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
- 参考スコア(独自算出の注目度): 20.106207598099363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interleaved image-text generation has emerged as a crucial multimodal task, aiming at creating sequences of interleaved visual and textual content given a query. Despite notable advancements in recent multimodal large language models (MLLMs), generating integrated image-text sequences that exhibit narrative coherence and entity and style consistency remains challenging due to poor training data quality. To address this gap, we introduce CoMM, a high-quality Coherent interleaved image-text MultiModal dataset designed to enhance the coherence, consistency, and alignment of generated multimodal content. Initially, CoMM harnesses raw data from diverse sources, focusing on instructional content and visual storytelling, establishing a foundation for coherent and consistent content. To further refine the data quality, we devise a multi-perspective filter strategy that leverages advanced pre-trained models to ensure the development of sentences, consistency of inserted images, and semantic alignment between them. Various quality evaluation metrics are designed to prove the high quality of the filtered dataset. Meanwhile, extensive few-shot experiments on various downstream tasks demonstrate CoMM's effectiveness in significantly enhancing the in-context learning capabilities of MLLMs. Moreover, we propose four new tasks to evaluate MLLMs' interleaved generation abilities, supported by a comprehensive evaluation framework. We believe CoMM opens a new avenue for advanced MLLMs with superior multimodal in-context learning and understanding ability.
- Abstract(参考訳): インターリーブ画像テキスト生成は、クエリーを与えられたインターリーブ画像とテキストのシーケンスを作成することを目的として、重要なマルチモーダルタスクとして登場した。
最近のマルチモーダル大規模言語モデル(MLLM)の顕著な進歩にもかかわらず、物語の一貫性と実体とスタイルの整合性を示す統合された画像テキストシーケンスを生成することは、トレーニングデータの品質が低いため、依然として困難である。
このギャップに対処するため、我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために、高品質なコヒーレント・コヒーレント・インターリーブド・イメージ・テキスト・マルチモーダル・データセットであるCoMMを紹介した。
当初、CoMMは多様な情報源からの生データを活用し、指導的コンテンツと視覚的ストーリーテリングに焦点をあて、一貫性と一貫性のあるコンテンツの基礎を確立した。
データ品質をさらに改善するため,先進的な事前学習モデルを利用して文の開発,挿入画像の整合性,意味的整合性を確保するマルチパースペクティブフィルタ戦略を考案した。
さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
一方、様々なダウンストリームタスクに対する広範囲な数ショット実験は、MLLMの文脈内学習能力を著しく向上させるCoMMの有効性を示す。
さらに,包括的評価フレームワークを用いてMLLMのインターリーブ世代能力を評価するための4つの新しいタスクを提案する。
我々は、CoMMがより優れたマルチモーダルインコンテキスト学習と理解能力を持つ高度なMLLMのための新たな道を開くと信じている。
関連論文リスト
- SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal
Datasets [30.72744231027204]
マルチモーダル対話システムの開発は、リッチでマルチモーダルな(テキスト、画像)対話データ不足によって妨げられている。
textbfMultimodal textbfAugmented textbfGenerative textbfImages textbfDialogues (MAGID)を導入し,多彩で高品質な画像によるテキストのみの対話を強化する。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。