Fugu-MT 論文翻訳(概要): Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo

論文の概要: Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo

arxiv url: http://arxiv.org/abs/2405.00717v1
Date: Thu, 25 Apr 2024 17:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-05 17:44:45.355728
Title: Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo
Title（参考訳）: 高資源スカース言語におけるニュース要約と豊か化の探求--ミゾを事例として
Authors: Abhinaba Bala, Ashok Urlana, Rahul Mishra, Parameswari Krishnamurthy,
Abstract要約: 本研究では,三蔵ニュース記事の総合的な要約を生成するための簡易手法の有効性について検討する。我々は,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。
参考スコア（独自算出の注目度）: 7.393476206148905
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Obtaining sufficient information in one's mother tongue is crucial for satisfying the information needs of the users. While high-resource languages have abundant online resources, the situation is less than ideal for very low-resource languages. Moreover, the insufficient reporting of vital national and international events continues to be a worry, especially in languages with scarce resources, like \textbf{Mizo}. In this paper, we conduct a study to investigate the effectiveness of a simple methodology designed to generate a holistic summary for Mizo news articles, which leverages English-language news to supplement and enhance the information related to the corresponding news events. Furthermore, we make available 500 Mizo news articles and corresponding enriched holistic summaries. Human evaluation confirms that our approach significantly enhances the information coverage of Mizo news articles. The mizo dataset and code can be accessed at \url{https://github.com/barvin04/mizo_enrichment
Abstract（参考訳）: ユーザの情報ニーズを満たすためには,母国語で十分な情報を得ることが不可欠である。高リソース言語には豊富なオンラインリソースがあるが、非常に低リソース言語には理想的ではない。さらに、重要な国家的・国際的出来事の報告が不十分であることは、特に『textbf{Mizo}』のような資源が乏しい言語では懸念されている。本稿では、英語ニュースを利用して対応するニュースイベントに関する情報を補足し、強化する、三蔵ニュース記事の全体論的な要約を生成するための簡易手法の有効性について検討する。さらに,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。 mizo データセットとコードは \url{https://github.com/barvin04/mizo_enrichment でアクセスできる

関連論文リスト

CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English [53.32175252285023]
言語間のニュース比較は、情報の検証に有望なアプローチを提供する。既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
論文参考訳（メタデータ） (2025-10-22T14:23:50Z)
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T17:48:08Z)
Detection of Somali-written Fake News and Toxic Messages on the Social Media Using Transformer-based Language Models [0.0]
本稿では,ソマリア語におけるこれらのギャップのいくつかを埋めるために,現在進行中の研究成果について述べる。我々はトランスフォーマーに基づく単言語ソマリ言語モデル(SomBERTa)を開発した。 SomBERTaは、有害コンテンツ、フェイクニュース、ニューストピック分類データセットに基づいて微調整され、評価される。
論文参考訳（メタデータ） (2025-03-23T15:45:31Z)
LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文参考訳（メタデータ） (2024-11-20T16:59:41Z)
Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-10-24T03:02:03Z)
MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-14T11:59:33Z)
A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文参考訳（メタデータ） (2024-03-28T12:08:39Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文参考訳（メタデータ） (2023-05-24T08:56:35Z)
Resources for Turkish Natural Language Processing: A critical survey [0.0]
我々は、公開されているリソースを中心に、幅広いリソースをレビューする。本稿では,トルコ語と自然言語処理における研究・構築のために利用可能なデータのギャップを,一連のレコメンデーションと識別する。
論文参考訳（メタデータ） (2022-04-11T12:23:07Z)
Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。 WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。資源開発に関する推奨ガイドラインをまとめる。
論文参考訳（メタデータ） (2022-02-24T18:39:57Z)
MetaXL: Meta Representation Transformation for Low-resource Cross-lingual Learning [91.5426763812547]
言語間移動学習は低リソース言語のための機能的NLPシステムを構築するための最も効果的な方法の1つである。 MetaXLは、メタラーニングベースのフレームワークで、表現を補助言語からターゲット言語にジャッジに変換することを学ぶ。
論文参考訳（メタデータ） (2021-04-16T06:15:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。