論文の概要: Bangla Key2Text: Text Generation from Keywords for a Low Resource Language
- arxiv url: http://arxiv.org/abs/2604.19508v1
- Date: Tue, 21 Apr 2026 14:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.810835
- Title: Bangla Key2Text: Text Generation from Keywords for a Low Resource Language
- Title(参考訳): Bangla Key2Text: 低リソース言語のためのキーワードからのテキスト生成
- Authors: Tonmoy Talukder, G M Shahariar,
- Abstract要約: 本稿では,Banglaキーワード-テキストペアの大規模データセットであるtextitBangla Key2Textを紹介する。
このデータセットは、何百万ものBanglaニューステキストに適用されたBERTベースのキーワード抽出パイプラインを使用して構築される。
- 参考スコア(独自算出の注目度): 0.10742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces \textit{Bangla Key2Text}, a large-scale dataset of $2.6$ million Bangla keyword--text pairs designed for keyword-driven text generation in a low-resource language. The dataset is constructed using a BERT-based keyword extraction pipeline applied to millions of Bangla news texts, transforming raw articles into structured keyword--text pairs suitable for supervised learning. To establish baseline performance on this new benchmark, we fine-tune two sequence-to-sequence models, \texttt{mT5} and \texttt{BanglaT5}, and evaluate them using multiple automatic metrics and human judgments. Experimental results show that task-specific fine-tuning substantially improves keyword-conditioned text generation in Bangla compared to zero-shot large language models. The dataset, trained models, and code are publicly released to support future research in Bangla natural language generation and keyword-to-text generation tasks.
- Abstract(参考訳): 本稿では,低リソース言語でキーワード駆動型テキスト生成用に設計された260万ドルのBanglaキーワード-テキストペアからなる大規模データセットである「textit{Bangla Key2Text}」を紹介する。
このデータセットは、何百万ものBanglaニューステキストに適用されたBERTベースのキーワード抽出パイプラインを使用して構築され、生記事を教師付き学習に適した構造化キーワード-テキストペアに変換する。
このベンチマークのベースライン性能を確立するため,2つのシーケンス・ツー・シーケンスモデルである \texttt{mT5} と \texttt{BanglaT5} を微調整し,複数の自動測定値と人的判断値を用いて評価する。
実験結果から,タスク固有の微調整は,ゼロショット大言語モデルと比較して,Banglaにおけるキーワード条件付きテキスト生成を大幅に改善することが示された。
データセット、トレーニングされたモデル、コードは、Bangla自然言語生成とキーワードからテキスト生成タスクにおける将来の研究をサポートするために、一般公開されている。
関連論文リスト
- Enhancing Automatic Keyphrase Labelling with Text-to-Text Transfer Transformer (T5) Architecture: A Framework for Keyphrase Generation and Filtering [2.1656586298989793]
本稿では,テキスト・テキスト・トランスフォーマ(T5)アーキテクチャに基づくキーフレーズ生成モデルを提案する。
また,T5アーキテクチャに基づく新しいキーフレーズフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T09:16:46Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Cross-Domain Robustness of Transformer-based Keyphrase Generation [1.8492669447784602]
キーフレーズのリストは、データベースや電子文書のリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して非常に高い結果を示す。
本稿では,6つのベンチマークコーパス間のキーフレーズ選択タスクに対する微調整BARTモデルの評価を行う。
論文 参考訳(メタデータ) (2023-12-17T12:27:15Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Most Language Models can be Poets too: An AI Writing Assistant and
Constrained Text Generation Studio [0.5097809301149341]
ほとんどの言語モデルは、大きな制約の下でも魅力的なテキストを生成する。
本稿では,言語モデルの語彙にフィルタ関数を合成することにより,言語モデルの出力を変更する手法を提案する。
また,この技術であるGadsbyを紹介するHuggingfaceスペースWebアプリケーションについても紹介する。
論文 参考訳(メタデータ) (2023-06-28T05:10:51Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Outline to Story: Fine-grained Controllable Story Generation from
Cascaded Events [39.577220559911055]
長文のきめ細かい制御が可能な生成のためのテストベッドとして,"Outline to Story" (O2S) という新しいタスクを提案する。
次に、最新のキーワード抽出技術で構築された将来のベンチマーク用のデータセットを作成します。
論文 参考訳(メタデータ) (2021-01-04T08:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。