論文の概要: BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion
- arxiv url: http://arxiv.org/abs/2501.01069v1
- Date: Thu, 02 Jan 2025 05:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:29.701625
- Title: BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion
- Title(参考訳): BeliN: 文脈特徴融合を用いたベンガル宗教ニュース見出し生成のための新しいコーパス
- Authors: Md Osama, Ashim Dey, Kawsar Ahmed, Muhammad Ashad Kabir,
- Abstract要約: 見出し生成への既存のアプローチは、感情、カテゴリ、アスペクトといった重要な文脈的特徴を見越して、記事の内容のみに依存するのが一般的である。
本研究は,新しいコーパスであるベリN(ベンガル宗教ニュース)を導入することで,この限界に対処する。
バングラデシュの著名なオンライン新聞の宗教ニュース記事と、マルチジェネレーション(MultiGen) - コンテキスト的マルチインプット機能融合の見出し生成アプローチ。
- 参考スコア(独自算出の注目度): 1.2416206871977309
- License:
- Abstract: Automatic text summarization, particularly headline generation, remains a critical yet underexplored area for Bengali religious news. Existing approaches to headline generation typically rely solely on the article content, overlooking crucial contextual features such as sentiment, category, and aspect. This limitation significantly hinders their effectiveness and overall performance. This study addresses this limitation by introducing a novel corpus, BeliN (Bengali Religious News) - comprising religious news articles from prominent Bangladeshi online newspapers, and MultiGen - a contextual multi-input feature fusion headline generation approach. Leveraging transformer-based pre-trained language models such as BanglaT5, mBART, mT5, and mT0, MultiGen integrates additional contextual features - including category, aspect, and sentiment - with the news content. This fusion enables the model to capture critical contextual information often overlooked by traditional methods. Experimental results demonstrate the superiority of MultiGen over the baseline approach that uses only news content, achieving a BLEU score of 18.61 and ROUGE-L score of 24.19, compared to baseline approach scores of 16.08 and 23.08, respectively. These findings underscore the importance of incorporating contextual features in headline generation for low-resource languages. By bridging linguistic and cultural gaps, this research advances natural language processing for Bengali and other underrepresented languages. To promote reproducibility and further exploration, the dataset and implementation code are publicly accessible at https://github.com/akabircs/BeliN.
- Abstract(参考訳): 自動テキスト要約、特に見出し生成は、ベンガルの宗教ニュースにとって決定的だが未調査の領域である。
見出し生成への既存のアプローチは、感情、カテゴリ、アスペクトといった重要な文脈的特徴を見越して、記事の内容のみに依存するのが一般的である。
この制限は、その効果と全体的なパフォーマンスを著しく妨げます。
本研究は、バングラデシュの著名なオンライン新聞の宗教ニュース記事を含む新しいコーパスであるBeliN(ベンガル宗教ニュース)と、コンテキスト型マルチインプット機能融合見出し生成アプローチであるMultiGenを導入することで、この制限に対処する。
BanglaT5、mBART、mT5、mT0といったトランスフォーマーベースの事前トレーニング言語モデルを活用することで、MultiGenは、カテゴリ、アスペクト、感情などの追加のコンテキスト機能をニュースコンテンツと統合する。
この融合により、モデルは伝統的な手法でしばしば見過ごされる重要な文脈情報をキャプチャすることができる。
実験の結果,ニュースコンテンツのみを用いたベースラインアプローチよりもMultiGenの方が優れており,BLEUスコアは18.61,ROUGE-Lスコアは24.19であり,ベースラインアプローチスコアは16.08,23.08であった。
これらの知見は,低リソース言語における見出し生成に文脈的特徴を取り入れることの重要性を浮き彫りにした。
この研究は、言語と文化のギャップを埋めることによって、ベンガル語や他の未表現言語に対する自然言語処理を前進させる。
再現性とさらなる探索を促進するため、データセットと実装コードはhttps://github.com/akabircs/BeliNで公開されている。
関連論文リスト
- Headline-Guided Extractive Summarization for Thai News Articles [0.0]
タイ語ニュース記事の見出しの文脈情報を組み込んだ抽出要約モデルであるCHIMAを提案する。
我々のモデルは、事前訓練された言語モデルを用いて、複雑な言語意味をキャプチャし、要約に含まれる各文に確率を割り当てる。
公開されたタイのニュースデータセットの実験では、CHIMAはROUGE、BLEU、F1のスコアでベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-12-02T15:43:10Z) - TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu [4.272315504476224]
関連性に基づく見出し分類は、関連する見出しを生成するタスクを大いに助ける。
本稿では,TeClassについて紹介する。
ROUGE-Lスコアの約5ポイント向上を示した。
論文 参考訳(メタデータ) (2024-04-17T13:07:56Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal
Reference Annotations [0.0]
我々は、4つの異なるドメインから収集されたBengaliテキストのコア参照アノテーションを含む新しいデータセットBenCorefを紹介した。
この比較的小さなデータセットには、48,569トークン内に502の参照クラスタを形成する5200の参照アノテーションが含まれている。
論文 参考訳(メタデータ) (2023-04-07T15:08:46Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - A Framework for Neural Topic Modeling of Text Corpora [6.340447411058068]
テキストの特徴を抽出し,組み込むための効率的なメカニズムを実現するためのオープンソースフレームワークであるFAMEを紹介した。
本ライブラリの有効性を示すために,よく知られたNews-Groupデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-08-19T23:32:38Z) - HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish
Text [1.6675267471157407]
我々は、広く普及しているHinglish(ヒンディー語と英語のコードミキシング)のためのコーパス(HinGE)を提示する。
HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。
さらに,コード混合データ上で広く利用されている評価指標の有効性を実証した。
論文 参考訳(メタデータ) (2021-07-08T11:11:37Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。