論文の概要: The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
- arxiv url: http://arxiv.org/abs/2509.21294v1
- Date: Thu, 25 Sep 2025 15:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.022263
- Title: The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
- Title(参考訳): 多言語・多文化AIシステムにおける合成データの役割:インド語からの教訓
- Authors: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram,
- Abstract要約: インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
- 参考スコア(独自算出の注目度): 18.087937520281965
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Developing AI systems that operate effectively across languages while remaining culturally grounded is a long-standing challenge, particularly in low-resource settings. Synthetic data provides a promising avenue, yet its effectiveness in multilingual and multicultural contexts remains underexplored. We investigate the creation and impact of synthetic, culturally contextualized datasets for Indian languages through a bottom-up generation strategy that prompts large open-source LLMs (>= 235B parameters) to ground data generation in language-specific Wikipedia content. This approach complements the dominant top-down paradigm of translating synthetic datasets from high-resource languages such as English. We introduce Updesh, a high-quality large-scale synthetic instruction-following dataset comprising 9.5M data points across 13 Indian languages, encompassing diverse reasoning and generative tasks with an emphasis on long-context, multi-turn capabilities, and alignment with Indian cultural contexts. A comprehensive evaluation incorporating both automated metrics and human annotation across 10k assessments indicates that generated data is high quality; though, human evaluation highlights areas for further improvement. Additionally, we perform downstream evaluations by fine-tuning models on our dataset and assessing the performance across 15 diverse multilingual datasets. Models trained on Updesh consistently achieve significant gains on generative tasks and remain competitive on multiple-choice style NLU tasks. Notably, relative improvements are most pronounced in low and medium-resource languages, narrowing their gap with high-resource languages. These findings provide empirical evidence that effective multilingual AI requires multi-faceted data curation and generation strategies that incorporate context-aware, culturally grounded methodologies.
- Abstract(参考訳): 文化的な基盤を保ちながら言語を効果的に運用するAIシステムの開発は、特に低リソース環境では、長年にわたる課題である。
合成データは有望な道を提供するが、多言語・多文化的な文脈におけるその有効性は未解明のままである。
本研究では,言語固有のウィキペディアコンテンツにおいて,大規模なオープンソース LLM (>=235B パラメータ) を基盤とするボトムアップ生成戦略を通じて,インド言語のための合成・文化的文脈化されたデータセットの作成と影響について検討する。
このアプローチは、英語などの高リソース言語から合成データセットを翻訳する支配的なトップダウンパラダイムを補完する。
インドの13言語にまたがる950万のデータポイントからなる高品質な大規模合成指導フォローデータセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示しているが、人間による評価はさらなる改善のための領域を強調している。
さらに、データセット上の微調整モデルによる下流評価を行い、15の多様な多言語データセットのパフォーマンスを評価する。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
特に、低級および中級の言語では相対的な改善が最も顕著であり、高級の言語とのギャップを狭めている。
これらの発見は、効果的な多言語AIには、コンテキスト対応の文化的基盤を持つ方法論を組み込んだ、多面的なデータキュレーションと生成戦略が必要であるという実証的な証拠を提供する。
関連論文リスト
- A method for improving multilingual quality and diversity of instruction fine-tuning datasets [29.07537849245622]
マルチリンガルデータ品質・多様性(M-DaQ)を導入し,IFT(Multilingual Instruction Fine-Tuning)の改善を図る。
M-DaQは、高品質で意味的に多様な多言語IFTサンプルを選択することで、LLMの多言語性を改善する新しい方法である。
18言語にわたる実証的な結果から、M-DaQで微調整されたモデルでは、バニラベースラインの60%の勝利率よりも大きなパフォーマンス向上が達成されている。
論文 参考訳(メタデータ) (2025-09-19T03:07:59Z) - No Language Data Left Behind: A Comparative Study of CJK Language Datasets in the Hugging Face Ecosystem [2.1384640984303216]
文化規範,研究環境,制度的実践がデータセットの可用性と品質をどのように形成するかを検討する。
本研究は,中国におけるデータセットの大規模かつ機関主導的な性質,韓国NLPにおける草の根コミュニティ主導の開発,日本コレクションへのエンターテイメントとサブカルチャーの重視,などを明らかにする。
我々は、将来のデータセットのキュレーションとコラボレーションのためのベストプラクティスについて議論し、3つの言語すべてにわたるリソース開発を強化することを目的として締めくくった。
論文 参考訳(メタデータ) (2025-07-06T10:32:32Z) - SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。
データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。
その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T17:48:08Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Culturally-Nuanced Story Generation for Reasoning in Low-Resource Languages: The Case of Javanese and Sundanese [12.208154616426052]
大規模言語モデル(LLM)がジャワ語とスンダ語で文化的にニュアンスな物語を生成できるかどうかを検証する。
筆者らは,(1) LLM支援ストーリーに文化的手がかりを付与し,(2)インドネシアのベンチマークから機械翻訳を行い,(3)ネイティブなストーリーを提示する3つのデータ生成戦略を比較した。
各データセットのモデルを微調整し、分類と生成のための人為的なテストセットで評価する。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。