論文の概要: Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
- arxiv url: http://arxiv.org/abs/2511.07080v1
- Date: Mon, 10 Nov 2025 13:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.264319
- Title: Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
- Title(参考訳): Wasm: 構造化アラビア語インターリーブマルチモーダルコーパスを構築するパイプライン
- Authors: Khalil Hennara, Ahmad Bastati, Muhammad Hreden, Mohamed Motasim Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan,
- Abstract要約: 我々は、新しいアラビアマルチモーダルデータセットを作成するためにCommon Crawlデータセットを処理するパイプラインWasmを提示する。
テキスト抽出のみに焦点を当てた既存のアラビア語コーパスとは異なり、我々のアプローチはウェブコンテンツの構造的整合性を保っている。
既存の主要なデータセットに対して、データ処理パイプラインの包括的な比較分析を提供します。
- 参考スコア(独自算出の注目度): 1.7590081165362783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of large language models (LLMs) and large multimodal models (LMMs) depends heavily on the quality and scale of their pre-training datasets. Recent research shows that large multimodal models trained on natural documents where images and text are interleaved outperform those trained only on image-text pairs across a wide range of benchmarks, leveraging advanced pre- trained models to enforce semantic alignment, image-sequence consistency, and textual coherence. For Arabic, however, the lack of high-quality multimodal datasets that preserve document structure has limited progress. In this paper, we present our pipeline Wasm for processing the Common Crawl dataset to create a new Arabic multimodal dataset that uniquely provides markdown output. Unlike existing Arabic corpora that focus solely on text extraction, our approach preserves the structural integrity of web content while maintaining flexibility for both text-only and multimodal pre-training scenarios. We provide a comprehensive comparative analysis of our data processing pipeline against those used for major existing datasets, highlighting the convergences in filtering strategies and justifying our specific design choices. To support future research, we publicly release a representative dataset dump along with the multimodal processing pipeline for Arabic.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の性能は、事前学習データセットの品質とスケールに大きく依存する。
最近の研究では、画像とテキストがインターリーブされた自然文書でトレーニングされた大規模なマルチモーダルモデルは、幅広いベンチマークで画像とテキストのペアでトレーニングされたモデルよりも優れており、セマンティックアライメント、画像シーケンス整合性、テキストコヒーレンスを強制するために高度な事前トレーニングモデルを活用している。
しかしアラビア語では、文書構造を保存する高品質なマルチモーダルデータセットが欠如しているため、進歩は限られている。
本稿では、Common Crawlデータセットを処理するパイプラインWasmを提示し、マークダウン出力を独自に提供する新しいアラビアマルチモーダルデータセットを作成する。
テキスト抽出のみに焦点を当てた既存のアラビアコーパスとは異なり,本手法はテキストのみおよびマルチモーダル事前学習シナリオの柔軟性を維持しつつ,Webコンテンツの構造的整合性を維持する。
我々は、主要なデータセットで使用されるデータ処理パイプラインの包括的な比較分析を提供し、フィルタリング戦略の収束を強調し、特定の設計選択を正当化します。
今後の研究を支援するため、アラビア語のマルチモーダル処理パイプラインとともに、代表的データセットダンプを公開しています。
関連論文リスト
- HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。
30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。
57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2025-11-02T20:16:38Z) - Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation [47.714317480436215]
PreMIRはMLLMの幅広い知識を活用して、検索前にクロスモーダルな事前質問(preQ)を生成するシンプルなフレームワークである。
実験により、PreMIRは、クローズドドメインやマルチリンガル設定など、分散ベンチマークから得られるアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2025-08-23T16:14:41Z) - FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language [48.79534869177174]
我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。
我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
論文 参考訳(メタデータ) (2025-06-26T01:01:47Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.753626355995653]
jina-clip-v2は、テキストペア、三つ子、画像-テキストペアで訓練された対照的な視覚言語モデルである。
我々は、多言語テキストエンコーダを使用し、29の非英語言語からの多言語テキストを含む訓練データセットを拡張した。
我々は、このモデルの性能を評価し、jina-clip-v2が最先端のCLIPモデルよりも顕著に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-11T22:28:12Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。