論文の概要: MultiBanAbs: A Comprehensive Multi-Domain Bangla Abstractive Text Summarization Dataset
- arxiv url: http://arxiv.org/abs/2511.19317v1
- Date: Mon, 24 Nov 2025 17:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.332714
- Title: MultiBanAbs: A Comprehensive Multi-Domain Bangla Abstractive Text Summarization Dataset
- Title(参考訳): MultiBanAbs: 総合的マルチドメインバングラ抽象テキスト要約データセット
- Authors: Md. Tanzim Ferdous, Naeem Ahsan Chowdhury, Prithwiraj Bhattacharjee,
- Abstract要約: 今日のデジタル時代には、大量のバングラコンテンツがブログ、新聞、ソーシャルメディアで継続的に制作されている。
これにより、情報の過負荷を減らし、読者がコンテンツをより早く理解できるようにするための要約システムの必要性が強まる。
本研究は,さまざまな情報源からバングラ記事の簡潔な要約を生成するために,バングラの抽象要約データセットを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study developed a new Bangla abstractive summarization dataset to generate concise summaries of Bangla articles from diverse sources. Most existing studies in this field have concentrated on news articles, where journalists usually follow a fixed writing style. While such approaches are effective in limited contexts, they often fail to adapt to the varied nature of real-world Bangla texts. In today's digital era, a massive amount of Bangla content is continuously produced across blogs, newspapers, and social media. This creates a pressing need for summarization systems that can reduce information overload and help readers understand content more quickly. To address this challenge, we developed a dataset of over 54,000 Bangla articles and summaries collected from multiple sources, including blogs such as Cinegolpo and newspapers such as Samakal and The Business Standard. Unlike single-domain resources, our dataset spans multiple domains and writing styles. It offers greater adaptability and practical relevance. To establish strong baselines, we trained and evaluated this dataset using several deep learning and transfer learning models, including LSTM, BanglaT5-small, and MTS-small. The results highlight its potential as a benchmark for future research in Bangla natural language processing. This dataset provides a solid foundation for building robust summarization systems and helps expand NLP resources for low-resource languages.
- Abstract(参考訳): 本研究は,さまざまな情報源からバングラ記事の簡潔な要約を生成するために,バングラの抽象要約データセットを開発した。
この分野の既存の研究は新聞記事に集中しており、ジャーナリストは通常固定的な執筆スタイルに従う。
このようなアプローチは限られた文脈で有効であるが、現実世界のバングラテキストの様々な性質に適応できないことが多い。
今日のデジタル時代には、大量のバングラコンテンツがブログ、新聞、ソーシャルメディアで継続的に制作されている。
これにより、情報の過負荷を減らし、読者がコンテンツをより早く理解できるようにするための要約システムの必要性が強まる。
この課題に対処するため、私たちは、CinegolpoのようなブログやSamakalやThe Business Standardといった新聞など、複数のソースから収集された54,000以上のBangla記事と要約のデータセットを開発しました。
単一のドメインリソースとは異なり、データセットは複数のドメインと書き込みスタイルにまたがる。
適応性と実践的妥当性が向上する。
強力なベースラインを確立するために,LSTM,BanglaT5-small,MTS-smallなどの深層学習学習モデルを用いて,このデータセットを訓練,評価した。
この結果は、バングラの自然言語処理における将来の研究のベンチマークとしての可能性を強調している。
このデータセットは、堅牢な要約システムを構築するための強固な基盤を提供し、低リソース言語のためのNLPリソースの拡大を支援する。
関連論文リスト
- LLM-Based Multi-Task Bangla Hate Speech Detection: Type, Severity, and Target [27.786707138241493]
マルチタスクのヘイトスピーチデータセットであるBanglaMultiHateを紹介した。
ゼロショットプロンプトとLoRAファインチューニングの下で,古典的ベースライン,モノリンガル事前学習モデル,LLMを比較した。
本実験は,低リソース環境下でのLLM適応性を評価し,一貫した傾向を示すものである。
論文 参考訳(メタデータ) (2025-10-02T13:17:11Z) - Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets [2.6966823536477436]
本研究では,BART,FLAN-T5,LLaMA-3-8B,Gemma-7Bの4大言語モデルについて,徹底的に評価する。
評価はROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEORなどの広く知られている自動測定値を用いて、一貫性のある情報的な要約を生成する際のモデルの能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T17:32:07Z) - BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion [1.2416206871977309]
見出し生成への既存のアプローチは、感情、カテゴリ、アスペクトといった重要な文脈的特徴を見越して、記事の内容のみに依存するのが一般的である。
本研究は,新しいコーパスであるベリN(ベンガル宗教ニュース)を導入することで,この限界に対処する。
バングラデシュの著名なオンライン新聞の宗教ニュース記事と、マルチジェネレーション(MultiGen) - コンテキスト的マルチインプット機能融合の見出し生成アプローチ。
論文 参考訳(メタデータ) (2025-01-02T05:34:21Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。