論文の概要: Chitrakshara: A Large Multilingual Multimodal Dataset for Indian languages
- arxiv url: http://arxiv.org/abs/2603.23521v1
- Date: Fri, 06 Mar 2026 15:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.008152
- Title: Chitrakshara: A Large Multilingual Multimodal Dataset for Indian languages
- Title(参考訳): Chitrakshara: インド言語のための大規模多言語マルチモーダルデータセット
- Authors: Shaharukh Khan, Ali Faraz, Abhinav Ravi, Mohd Nauman, Mohd Sarfraz, Akshat Patidar, Raja Kolla, Chandra Khatri, Shubham Agarwal,
- Abstract要約: 我々は、Common Crawlから派生した11のインド言語をカバーするChitraksharaデータセットシリーズを紹介した。
1)Chitrakshara-ILは193M画像,30Bテキストトークン,50M多言語文書を備えた大規模インターリーブ事前学習データセットであり,(2)Chitrakshara-Capは743M画像テキストペアと44M画像テキストペアを含む。
- 参考スコア(独自算出の注目度): 2.592717137976924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal research has predominantly focused on single-image reasoning, with limited exploration of multi-image scenarios. Recent models have sought to enhance multi-image understanding through large-scale pretraining on interleaved image-text datasets. However, most Vision-Language Models (VLMs) are trained primarily on English datasets, leading to inadequate representation of Indian languages. To address this gap, we introduce the Chitrakshara dataset series, covering 11 Indian languages sourced from Common Crawl. It comprises (1) Chitrakshara-IL, a large-scale interleaved pretraining dataset with 193M images, 30B text tokens, and 50M multilingual documents, and (2) Chitrakshara-Cap, which includes 44M image-text pairs with 733M tokens. This paper details the data collection pipeline, including curation, filtering, and processing methodologies. Additionally, we present a comprehensive quality and diversity analysis to assess the dataset's representativeness across Indic languages and its potential for developing more culturally inclusive VLMs.
- Abstract(参考訳): マルチモーダルな研究は、主に単一イメージの推論に焦点を合わせ、マルチモーダルなシナリオを限定的に探究している。
近年のモデルでは、インターリーブ画像テキストデータセットの大規模事前学習によるマルチイメージ理解の強化が試みられている。
しかしながら、ほとんどの視覚言語モデル(VLM)は、主に英語のデータセットに基づいて訓練されており、インド語の表現が不十分である。
このギャップに対処するために、私たちは、Common Crawlから派生した11のインド言語をカバーするChitraksharaデータセットシリーズを紹介します。
1)Chitrakshara-ILは193M画像,30Bテキストトークン,50M多言語文書を備えた大規模インターリーブ事前学習データセットであり,(2)Chitrakshara-Capは743M画像テキストペアと44M画像テキストペアを含む。
本稿では、キュレーション、フィルタリング、処理方法を含むデータ収集パイプラインについて詳述する。
さらに、Indic言語全体にわたるデータセットの表現性の評価と、より文化的に包括的なVLMの開発の可能性を評価するために、包括的品質と多様性の分析を行う。
関連論文リスト
- Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages [2.403023083920947]
既存のオープンソースデータセットには、多言語カバレッジ、文化的な基盤、タスクの多様性のギャップが欠如していることが多い。
我々は、翻訳と合成拡張を組み合わせて、信頼できる多種多様なIndicポストトレーニングデータを生成する、Human-in-the-loopパイプラインを導入する。
我々のデータセットプロトコルは、しばしば見過ごされる次元を取り入れ、タスクの多様性、マルチターン対話、命令の忠実さ、安全性の整合性、文化的ニュアンス保存を強調する。
論文 参考訳(メタデータ) (2025-10-08T13:23:45Z) - COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation [10.9454163542891]
COSMMICは、9つの主要なインドの言語を特徴とする、コメントに敏感なマルチモーダル、多言語データセットである。
COSMMICは4,959の記事イメージ対と24,484の読者コメントで構成されており、全言語で利用できる。
データセットの有効性を評価するために,LLama3やGPT-4といった最先端言語モデルを用いる。
論文 参考訳(メタデータ) (2025-06-18T11:38:23Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。
mOSCARは、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスである。
163言語、303M文書、200Bトークン、1.15B画像を含む。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - MMT: A Multilingual and Multi-Topic Indian Social Media Dataset [1.0413233169366503]
ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
多くはコードミキシングと多言語形式で行われる。
我々はTwitterから収集した大規模多言語・マルチトピックデータセット(MMT)を紹介する。
論文 参考訳(メタデータ) (2023-04-02T21:39:00Z) - Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of
Downstream Tasks [0.007696728525672149]
Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。
これらファースト・オブ・ザ・キンドのベースラインのいくつかは、高リソース言語の最先端のパフォーマンスに匹敵するものである。
論文 参考訳(メタデータ) (2022-10-26T13:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。