論文の概要: PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
- arxiv url: http://arxiv.org/abs/2406.13923v1
- Date: Thu, 20 Jun 2024 01:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:46:37.876507
- Title: PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
- Title(参考訳): PIN: Paired and Interleaved Multimodal Documentsのための知識集約型データセット
- Authors: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen,
- Abstract要約: PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
PIN-14Mは中国語と英語の多種多様な情報源から得られた1400万のサンプルからなるオープンソースデータセットである。
- 参考スコア(独自算出の注目度): 58.35492519636351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Multimodal Models (LMMs) have leveraged extensive multimodal datasets to enhance capabilities in complex knowledge-driven tasks. However, persistent challenges in perceptual and reasoning errors limit their efficacy, particularly in interpreting intricate visual data and deducing multimodal relationships. Addressing these issues, we introduce a novel dataset format, PIN (Paired and INterleaved multimodal documents), designed to significantly improve both the depth and breadth of multimodal training. The PIN format is built on three foundational principles: knowledge intensity, scalability, and support for diverse training modalities. This innovative format combines markdown files and comprehensive images to enrich training data with a dense knowledge structure and versatile training strategies. We present PIN-14M, an open-source dataset comprising 14 million samples derived from a diverse range of Chinese and English sources, tailored to include complex web and scientific content. This dataset is constructed meticulously to ensure data quality and ethical integrity, aiming to facilitate advanced training strategies and improve model robustness against common multimodal training pitfalls. Our initial results, forming the basis of this technical report, suggest significant potential for the PIN format in refining LMM performance, with plans for future expansions and detailed evaluations of its impact on model capabilities.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、複雑な知識駆動タスクの能力を高めるために、広範囲なマルチモーダルデータセットを活用している。
しかし、知覚的および推論的誤りにおける永続的な課題は、特に複雑な視覚的データを解釈し、マルチモーダルな関係を推論する際の有効性を制限している。
これらの課題に対処するため、我々は、マルチモーダルトレーニングの深さと幅の両方を大幅に改善するために、新しいデータセットフォーマットであるPIN(Paired and Interleaved multimodal document)を導入する。
PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
このイノベーティブなフォーマットは、マークダウンファイルと包括的イメージを組み合わせて、トレーニングデータを高密度な知識構造と汎用的なトレーニング戦略で強化する。
PIN-14Mは中国語と英語の多様な情報源から得られた1400万のサンプルからなるオープンソースのデータセットであり、複雑なウェブや科学的な内容を含むように調整されている。
このデータセットは、データ品質と倫理的整合性を確保するために慎重に構築され、高度なトレーニング戦略を促進し、一般的なマルチモーダルトレーニングの落とし穴に対するモデル堅牢性を改善することを目的としている。
本研究の成果は,LMMの性能改善におけるPINフォーマットの有意な可能性を示唆するものであり,今後の拡張計画とモデル機能への影響を詳細に評価するものである。
関連論文リスト
- MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。
このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文 参考訳(メタデータ) (2024-06-27T15:36:43Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Zero-Shot Relational Learning for Multimodal Knowledge Graphs [31.215889061734295]
主な課題の1つは、関連するトレーニングデータなしで新たに発見された関係を推測することである。
既存の作業はマルチモーダル情報の活用をサポートしておらず、未調査のままである。
多様なマルチモーダル情報と知識グラフ構造を統合するために, マルチモーダル学習者, 構造コンソリエータ埋め込みジェネレータという3つのコンポーネントからなる新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T11:14:45Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。