論文の概要: CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
- arxiv url: http://arxiv.org/abs/2509.09990v1
- Date: Fri, 12 Sep 2025 06:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.9913
- Title: CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
- Title(参考訳): CMHG:中国におけるマイノリティ言語の見出し生成のためのデータセットとベンチマーク
- Authors: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong,
- Abstract要約: 我々は,チベット語で10万項目,ウイグル語とモンゴル語で5万項目を含む新しいデータセットである中国マイノリティ・ヘッドライン・ジェネレーション(CMHG)を紹介した。
このデータセットが,中国マイノリティ言語の見出し生成を進展させ,関連するベンチマークの開発に貢献する上で,貴重なリソースになることを願っている。
- 参考スコア(独自算出の注目度): 9.896133868022687
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Minority languages in China, such as Tibetan, Uyghur, and Traditional Mongolian, face significant challenges due to their unique writing systems, which differ from international standards. This discrepancy has led to a severe lack of relevant corpora, particularly for supervised tasks like headline generation. To address this gap, we introduce a novel dataset, Chinese Minority Headline Generation (CMHG), which includes 100,000 entries for Tibetan, and 50,000 entries each for Uyghur and Mongolian, specifically curated for headline generation tasks. Additionally, we propose a high-quality test set annotated by native speakers, designed to serve as a benchmark for future research in this domain. We hope this dataset will become a valuable resource for advancing headline generation in Chinese minority languages and contribute to the development of related benchmarks.
- Abstract(参考訳): 中国におけるチベット語、ウイグル語、モンゴル語などの少数言語は、国際標準とは異なる独自の文字体系によって大きな課題に直面している。
この不一致は、特にヘッドライン生成のような教師付きタスクにおいて、関連するコーパスの深刻な欠如につながった。
このギャップに対処するため,中国マイノリティ・ヘッドライン・ジェネレーション (CMHG) という新しいデータセットを導入する。
さらに,本領域における今後の研究のベンチマークとして,ネイティブ話者が注釈付けした高品質なテストセットを提案する。
このデータセットが,中国マイノリティ言語の見出し生成を進展させ,関連するベンチマークの開発に貢献する上で,貴重なリソースになることを願っている。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China [33.08119305158835]
中国におけるマイノリティ言語多言語コーパスであるMC$2を提示する。
MC$2$にはチベット語、ウイグル語、カザフ語、モンゴル語という4つの下位言語が含まれている。
論文 参考訳(メタデータ) (2023-11-14T17:45:50Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension [9.66226932673554]
ネイティブ・チャイニーズ・リーダー(Native Chinese Reader)は、現代中国語と古典中国語の両方で特に長い記事を載せた、新しい機械読解データセットである。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
論文 参考訳(メタデータ) (2021-12-13T09:11:38Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。