論文の概要: TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu
- arxiv url: http://arxiv.org/abs/2404.11349v1
- Date: Wed, 17 Apr 2024 13:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:54:57.159709
- Title: TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu
- Title(参考訳): TeClass: Teluguのための人間関連性に基づく見出し分類と生成データセット
- Authors: Gopichand Kanumolu, Lokesh Madasu, Nirmal Surange, Manish Shrivastava,
- Abstract要約: 関連性に基づく見出し分類は、関連する見出しを生成するタスクを大いに助ける。
本稿では,TeClassについて紹介する。
ROUGE-Lスコアの約5ポイント向上を示した。
- 参考スコア(独自算出の注目度): 4.272315504476224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: News headline generation is a crucial task in increasing productivity for both the readers and producers of news. This task can easily be aided by automated News headline-generation models. However, the presence of irrelevant headlines in scraped news articles results in sub-optimal performance of generation models. We propose that relevance-based headline classification can greatly aid the task of generating relevant headlines. Relevance-based headline classification involves categorizing news headlines based on their relevance to the corresponding news articles. While this task is well-established in English, it remains under-explored in low-resource languages like Telugu due to a lack of annotated data. To address this gap, we present TeClass, the first-ever human-annotated Telugu news headline classification dataset, containing 78,534 annotations across 26,178 article-headline pairs. We experiment with various baseline models and provide a comprehensive analysis of their results. We further demonstrate the impact of this work by fine-tuning various headline generation models using TeClass dataset. The headlines generated by the models fine-tuned on highly relevant article-headline pairs, showed about a 5 point increment in the ROUGE-L scores. To encourage future research, the annotated dataset as well as the annotation guidelines will be made publicly available.
- Abstract(参考訳): ニュースの見出し生成は、ニュースの読者とプロデューサーの両方にとって、生産性を高めるための重要なタスクである。
このタスクは、自動化されたニュース見出し生成モデルによって容易に支援できる。
しかし, ニュース記事に無関係な見出しの存在は, 生成モデルの準最適性能をもたらす。
本稿では,関連性に基づく見出し分類が,関連する見出しを生成する作業に大いに役立つことを提案する。
関連性に基づく見出し分類では、対応するニュース記事との関連性に基づいてニュースの見出しを分類する。
このタスクは英語で十分に確立されているが、注釈付きデータがないため、Teluguのような低リソース言語では未探索のままである。
このギャップに対処するために、26,178の記事と見出しのペアに78,534のアノテーションを含む、初めて人間に注釈を付けたTeClassを紹介した。
様々なベースラインモデルを用いて実験を行い、その結果を包括的に分析する。
さらに、TeClassデータセットを用いて様々な見出し生成モデルを微調整することで、この研究の影響を実証する。
ROUGE-Lスコアの約5ポイント向上を示した。
将来の研究を促進するため、アノテーション付きデータセットとアノテーションガイドラインが公開されている。
関連論文リスト
- BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion [1.2416206871977309]
見出し生成への既存のアプローチは、感情、カテゴリ、アスペクトといった重要な文脈的特徴を見越して、記事の内容のみに依存するのが一般的である。
本研究は,新しいコーパスであるベリN(ベンガル宗教ニュース)を導入することで,この限界に対処する。
バングラデシュの著名なオンライン新聞の宗教ニュース記事と、マルチジェネレーション(MultiGen) - コンテキスト的マルチインプット機能融合の見出し生成アプローチ。
論文 参考訳(メタデータ) (2025-01-02T05:34:21Z) - Headline-Guided Extractive Summarization for Thai News Articles [0.0]
タイ語ニュース記事の見出しの文脈情報を組み込んだ抽出要約モデルであるCHIMAを提案する。
我々のモデルは、事前訓練された言語モデルを用いて、複雑な言語意味をキャプチャし、要約に含まれる各文に確率を割り当てる。
公開されたタイのニュースデータセットの実験では、CHIMAはROUGE、BLEU、F1のスコアでベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-12-02T15:43:10Z) - LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification [4.450536872346658]
本稿では,適切な大きさの多言語ニュース分類モデルを開発するための教師学習フレームワークを提案する。
このフレームワークは、IPTCメディアトピックトレーニングデータセットを開発するための教師モデルとして、ジェネレーティブ事前学習トランスフォーマー(GPT)モデルを使用している。
生徒モデルは教師モデルに匹敵する高いパフォーマンスを達成する。
我々は,IPTCメディアトピックスキーマの上位カテゴリで多言語分類が可能な,最高のニューストピックを公表する。
論文 参考訳(メタデータ) (2024-11-29T11:42:58Z) - Attention Sorting Combats Recency Bias In Long Context Language Models [69.06809365227504]
現在の言語モデルは、世代間の長いコンテキストを効率的に組み込むことができないことが多い。
この問題に対する主要なコントリビュータは,事前トレーニング中に学んだと思われる注意点である。
我々は、この事実を活用して注意ソートを導入する:1ステップのデコードを実行し、それらが受け取った注意によって文書をソートし、プロセスを繰り返し、新しくソートされたコンテキストで回答を生成する。
論文 参考訳(メタデータ) (2023-09-28T05:19:06Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Hooks in the Headline: Learning to Generate Headlines with Controlled
Styles [69.30101340243375]
我々は,見出しを3つのスタイルで強化する新しいタスク,Styllistic Headline Generation (SHG)を提案する。
TitleStylistは、要約と再構築タスクをマルチタスクフレームワークに組み合わせることで、スタイル固有の見出しを生成する。
我々のモデルが生成したアトラクションスコアは、最先端の要約モデルの9.68%を超え、人間による参照よりも優れています。
論文 参考訳(メタデータ) (2020-04-04T17:24:47Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。