論文の概要: Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo
- arxiv url: http://arxiv.org/abs/2405.00717v1
- Date: Thu, 25 Apr 2024 17:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 17:44:45.355728
- Title: Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo
- Title(参考訳): 高資源スカース言語におけるニュース要約と豊か化の探求--ミゾを事例として
- Authors: Abhinaba Bala, Ashok Urlana, Rahul Mishra, Parameswari Krishnamurthy,
- Abstract要約: 本研究では,三蔵ニュース記事の総合的な要約を生成するための簡易手法の有効性について検討する。
我々は,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。
人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。
- 参考スコア(独自算出の注目度): 7.393476206148905
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Obtaining sufficient information in one's mother tongue is crucial for satisfying the information needs of the users. While high-resource languages have abundant online resources, the situation is less than ideal for very low-resource languages. Moreover, the insufficient reporting of vital national and international events continues to be a worry, especially in languages with scarce resources, like \textbf{Mizo}. In this paper, we conduct a study to investigate the effectiveness of a simple methodology designed to generate a holistic summary for Mizo news articles, which leverages English-language news to supplement and enhance the information related to the corresponding news events. Furthermore, we make available 500 Mizo news articles and corresponding enriched holistic summaries. Human evaluation confirms that our approach significantly enhances the information coverage of Mizo news articles. The mizo dataset and code can be accessed at \url{https://github.com/barvin04/mizo_enrichment
- Abstract(参考訳): ユーザの情報ニーズを満たすためには,母国語で十分な情報を得ることが不可欠である。
高リソース言語には豊富なオンラインリソースがあるが、非常に低リソース言語には理想的ではない。
さらに、重要な国家的・国際的出来事の報告が不十分であることは、特に『textbf{Mizo}』のような資源が乏しい言語では懸念されている。
本稿では、英語ニュースを利用して対応するニュースイベントに関する情報を補足し、強化する、三蔵ニュース記事の全体論的な要約を生成するための簡易手法の有効性について検討する。
さらに,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。
人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。
mizo データセットとコードは \url{https://github.com/barvin04/mizo_enrichment でアクセスできる
関連論文リスト
- A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - Bangla AI: A Framework for Machine Translation Utilizing Large Language
Models for Ethnic Media [0.0]
エスニックメディアはホスト国のディアスポラコミュニティに注目する。
ホスト国の言語を利用するのではなく、民族メディアは移民コミュニティの言語でニュースを提供する。
この研究は、民族メディア産業における大規模言語モデル(LLM)と多言語機械翻訳(MMT)の今後の統合について考察する。
論文 参考訳(メタデータ) (2024-02-21T23:43:04Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Resources for Turkish Natural Language Processing: A critical survey [0.0]
我々は、公開されているリソースを中心に、幅広いリソースをレビューする。
本稿では,トルコ語と自然言語処理における研究・構築のために利用可能なデータのギャップを,一連のレコメンデーションと識別する。
論文 参考訳(メタデータ) (2022-04-11T12:23:07Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - MetaXL: Meta Representation Transformation for Low-resource
Cross-lingual Learning [91.5426763812547]
言語間移動学習は低リソース言語のための機能的NLPシステムを構築するための最も効果的な方法の1つである。
MetaXLは、メタラーニングベースのフレームワークで、表現を補助言語からターゲット言語にジャッジに変換することを学ぶ。
論文 参考訳(メタデータ) (2021-04-16T06:15:52Z) - BanFakeNews: A Dataset for Detecting Fake News in Bangla [1.4170999534105675]
自動フェイクニュース検知システムの構築に使用できる50Kニュースの注釈付きデータセットを提案する。
我々は,Bangla偽ニュースを識別するためのNLP技術の現状を示すベンチマークシステムを開発した。
論文 参考訳(メタデータ) (2020-04-19T07:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。