論文の概要: Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM
- arxiv url: http://arxiv.org/abs/2601.01543v1
- Date: Sun, 04 Jan 2026 14:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.473123
- Title: Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM
- Title(参考訳): データギャップのブリッジ: 英語XSUMからのヒンディー語テキスト要約データセットの作成
- Authors: Praveenkumar Katwe, RakeshChandra Balabantaray, Kaliprasad Vittala,
- Abstract要約: 本研究では、包括的なヒンディー語テキスト要約データセットを作成するための費用対効果の高い自動化フレームワークを提案する。
英語 Extreme Summarization (XSUM) データセットを情報源として,高度な翻訳手法と言語適応手法を採用する。
結果として得られたデータセットは、オリジナルのXSUMコーパスの複雑さを反映した多種多様なマルチテーマリソースを提供する。
- 参考スコア(独自算出の注目度): 2.893226191913102
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Current advancements in Natural Language Processing (NLP) have largely favored resource-rich languages, leaving a significant gap in high-quality datasets for low-resource languages like Hindi. This scarcity is particularly evident in text summarization, where the development of robust models is hindered by a lack of diverse, specialized corpora. To address this disparity, this study introduces a cost-effective, automated framework for creating a comprehensive Hindi text summarization dataset. By leveraging the English Extreme Summarization (XSUM) dataset as a source, we employ advanced translation and linguistic adaptation techniques. To ensure high fidelity and contextual relevance, we utilize the Crosslingual Optimized Metric for Evaluation of Translation (COMET) for validation, supplemented by the selective use of Large Language Models (LLMs) for curation. The resulting dataset provides a diverse, multi-thematic resource that mirrors the complexity of the original XSUM corpus. This initiative not only provides a direct tool for Hindi NLP research but also offers a scalable methodology for democratizing NLP in other underserved languages. By reducing the costs associated with dataset creation, this work fosters the development of more nuanced, culturally relevant models in computational linguistics.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、主にリソース豊富な言語を好んでおり、Hindiのような低リソース言語のための高品質なデータセットに大きなギャップを残している。
この不足はテキスト要約において特に顕著であり、堅牢なモデルの開発は多様で特殊なコーパスの欠如によって妨げられている。
この格差に対処するために、包括的なヒンディー語テキスト要約データセットを作成するための費用効率が高く自動化されたフレームワークを導入する。
英語 Extreme Summarization (XSUM) データセットを情報源として,高度な翻訳手法と言語適応手法を採用する。
高忠実度と文脈的関連性を確保するため,言語モデル(LLM)をキュレーションに用いて補足したCOMET(Crosslingual Optimized Metric for Evaluation of Translation)を検証に利用した。
結果として得られたデータセットは、オリジナルのXSUMコーパスの複雑さを反映した多種多様なマルチテーマリソースを提供する。
このイニシアチブはHindi NLP研究の直接的なツールを提供するだけでなく、他の未公開言語でNLPを民主化するためのスケーラブルな方法論も提供する。
データセット作成に伴うコストを削減することで、この研究は計算言語学におけるより微妙で文化的に関連するモデルの開発を促進する。
関連論文リスト
- The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages [18.087937520281965]
インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
論文 参考訳(メタデータ) (2025-09-25T15:13:00Z) - Exploring NLP Benchmarks in an Extremely Low-Resource Setting [21.656551146954587]
本稿では、絶滅危惧言語であるラディンに焦点を当て、特にヴァル・バディアの変種を対象とする。
我々は、単言語イタリア語データを翻訳することで、感情分析とマルチチョイス質問応答(MCQA)のための合成データセットを作成する。
論文 参考訳(メタデータ) (2025-09-04T07:41:23Z) - High-Resource Translation:Turning Abundance into Accessibility [0.0]
本稿では,トランスファーラーニング技術を活用して,英語からテルグ語への翻訳モデルを構築するための新しいアプローチを提案する。
このモデルは反復的バックトランスレーションを取り入れて合成並列データを生成し、トレーニングデータセットを効果的に強化し、モデルの翻訳能力を向上する。
論文 参考訳(メタデータ) (2025-04-08T11:09:51Z) - MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。
このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-02-25T08:53:27Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。