論文の概要: PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
- arxiv url: http://arxiv.org/abs/2406.13923v3
- Date: Tue, 09 Sep 2025 04:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.738387
- Title: PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
- Title(参考訳): PIN: Paired and Interleaved Multimodal Documentsのための知識集約型データセット
- Authors: Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Lin, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen,
- Abstract要約: PIN(Paired and INterleaved multimodal document)は、視覚とテキストの知識のより深い統合を促進するために設計された、新しいデータフォーマットである。
PIN-200M(2億ドキュメント)とPIN-14M(14百万ドキュメント)の2つの大規模オープンソースデータセットを構築しリリースする。
- 参考スコア(独自算出の注目度): 93.55219461948529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large multimodal models (LMMs) have leveraged extensive multimodal datasets to enhance capabilities in complex knowledge-driven tasks. However, persistent challenges in perceptual and reasoning errors limit their efficacy, particularly in interpreting intricate visual data and deducing multimodal relationships. To address these issues, we introduce PIN (Paired and INterleaved multimodal documents), a novel data format designed to foster a deeper integration of visual and textual knowledge. The PIN format uniquely combines semantically rich Markdown files, which preserve fine-grained textual structures, with holistic overall images that capture the complete document layout. Following this format, we construct and release two large-scale, open-source datasets: PIN-200M (~200 million documents) and PIN-14M (~14 million), compiled from diverse web and scientific sources in both English and Chinese. To maximize usability, we provide detailed statistical analyses and equip the datasets with quality signals, enabling researchers to easily filter and select data for specific tasks. Our work provides the community with a versatile data format and substantial resources, offering a foundation for new research in pre-training strategies and the development of more powerful knowledge-intensive LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、複雑な知識駆動タスクの能力を高めるために、広範囲なマルチモーダルデータセットを活用している。
しかし、知覚的および推論的誤りにおける永続的な課題は、特に複雑な視覚的データを解釈し、マルチモーダルな関係を推論する際の有効性を制限している。
PIN(Paired and INterleaved multimodal document)は、視覚的およびテキスト的知識のより深い統合を促進するために設計された、新しいデータフォーマットである。
PINフォーマットは、セマンティックにリッチなMarkdownファイルと、詳細なテキスト構造を保存し、完全なドキュメントレイアウトをキャプチャする全体像を一意に組み合わせている。
PIN-200M(約2億のドキュメント)とPIN-14M(約1400万のドキュメント)という2つの大規模なオープンソースデータセットを構築し、リリースする。
ユーザビリティを最大化するために、詳細な統計分析を行い、高品質な信号でデータセットを調整し、研究者が特定のタスクに対して簡単にデータをフィルタリングして選択することができるようにする。
我々の研究は、コミュニティに多彩なデータ形式と実質的なリソースを提供し、事前学習戦略の新しい研究基盤と、より強力な知識集約型LMMの開発を提供する。
関連論文リスト
- What are You Looking at? Modality Contribution in Multimodal Medical Deep Learning Methods [0.13194391758295113]
本稿では,モデルがタスクを果たすためのデータセットにおいて,各モダリティの重要性を測定する手法を提案する。
いくつかのネットワークは、一様崩壊の傾向にあるモダリティの選好を持ち、いくつかのデータセットはゼロから不均衡であることがわかった。
深層学習に基づくマルチモーダル研究における解釈可能性の分野において,本手法は重要な貢献をする。
論文 参考訳(メタデータ) (2025-02-28T12:39:39Z) - Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。
多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。
マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文 参考訳(メタデータ) (2024-12-23T18:15:19Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。
このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文 参考訳(メタデータ) (2024-06-27T15:36:43Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Zero-Shot Relational Learning for Multimodal Knowledge Graphs [31.215889061734295]
主な課題の1つは、関連するトレーニングデータなしで新たに発見された関係を推測することである。
既存の作業はマルチモーダル情報の活用をサポートしておらず、未調査のままである。
多様なマルチモーダル情報と知識グラフ構造を統合するために, マルチモーダル学習者, 構造コンソリエータ埋め込みジェネレータという3つのコンポーネントからなる新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T11:14:45Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。