論文の概要: Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages
- arxiv url: http://arxiv.org/abs/2510.07000v1
- Date: Wed, 08 Oct 2025 13:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.514574
- Title: Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages
- Title(参考訳): Pragyaan: インドの言語を対象とした高品質な文化的ポストトレーニングデータセットの設計と評価
- Authors: Neel Prabhanjan Rachamalla, Aravind Konakalla, Gautam Rajeev, Ashish Kulkarni, Chandra Khatri, Shubham Agarwal,
- Abstract要約: 既存のオープンソースデータセットには、多言語カバレッジ、文化的な基盤、タスクの多様性のギャップが欠如していることが多い。
我々は、翻訳と合成拡張を組み合わせて、信頼できる多種多様なIndicポストトレーニングデータを生成する、Human-in-the-loopパイプラインを導入する。
我々のデータセットプロトコルは、しばしば見過ごされる次元を取り入れ、タスクの多様性、マルチターン対話、命令の忠実さ、安全性の整合性、文化的ニュアンス保存を強調する。
- 参考スコア(独自算出の注目度): 2.403023083920947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of Large Language Models (LLMs) depends heavily on the availability of high-quality post-training data, particularly instruction-tuning and preference-based examples. Existing open-source datasets, however, often lack multilingual coverage, cultural grounding, and suffer from task diversity gaps that are especially pronounced for Indian languages. We introduce a human-in-the-loop pipeline that combines translations with synthetic expansion to produce reliable and diverse Indic post-training data. Using this pipeline, we curate two datasets: Pragyaan-IT (22.5K) and Pragyaan-Align (100K) across 10 Indian languages covering 13 broad and 56 sub-categories, leveraging 57 diverse datasets. Our dataset protocol incorporates several often-overlooked dimensions and emphasize task diversity, multi-turn dialogue, instruction fidelity, safety alignment, and preservation of cultural nuance, providing a foundation for more inclusive and effective multilingual LLMs.
- Abstract(参考訳): LLM(Large Language Models)の有効性は、高品質なポストトレーニングデータ、特に命令チューニングと嗜好に基づく例の可用性に大きく依存する。
しかし、既存のオープンソースデータセットには、多言語カバレッジや文化的な基盤がなく、特にインドの言語で顕著なタスクの多様性のギャップに悩まされていることが多い。
我々は、翻訳と合成拡張を組み合わせて、信頼できる多種多様なIndicポストトレーニングデータを生成する、Human-in-the-loopパイプラインを導入する。
Pragyaan-IT (22.5K)とPragyaan-Align (100K)の2つのデータセットを、13の広義および56のサブカテゴリをカバーする10のインド言語でキュレートし、57の多様なデータセットを活用する。
我々のデータセットプロトコルは、しばしば見過ごされる次元を取り入れ、タスク多様性、マルチターン対話、命令忠実度、安全アライメント、文化的ニュアンス保存を強調し、より包括的で効果的な多言語LLMの基礎を提供する。
関連論文リスト
- The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages [18.087937520281965]
インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
論文 参考訳(メタデータ) (2025-09-25T15:13:00Z) - Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。
本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。
アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。