論文の概要: TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu
- arxiv url: http://arxiv.org/abs/2404.11349v1
- Date: Wed, 17 Apr 2024 13:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:54:57.159709
- Title: TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu
- Title(参考訳): TeClass: Teluguのための人間関連性に基づく見出し分類と生成データセット
- Authors: Gopichand Kanumolu, Lokesh Madasu, Nirmal Surange, Manish Shrivastava,
- Abstract要約: 関連性に基づく見出し分類は、関連する見出しを生成するタスクを大いに助ける。
本稿では,TeClassについて紹介する。
ROUGE-Lスコアの約5ポイント向上を示した。
- 参考スコア(独自算出の注目度): 4.272315504476224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: News headline generation is a crucial task in increasing productivity for both the readers and producers of news. This task can easily be aided by automated News headline-generation models. However, the presence of irrelevant headlines in scraped news articles results in sub-optimal performance of generation models. We propose that relevance-based headline classification can greatly aid the task of generating relevant headlines. Relevance-based headline classification involves categorizing news headlines based on their relevance to the corresponding news articles. While this task is well-established in English, it remains under-explored in low-resource languages like Telugu due to a lack of annotated data. To address this gap, we present TeClass, the first-ever human-annotated Telugu news headline classification dataset, containing 78,534 annotations across 26,178 article-headline pairs. We experiment with various baseline models and provide a comprehensive analysis of their results. We further demonstrate the impact of this work by fine-tuning various headline generation models using TeClass dataset. The headlines generated by the models fine-tuned on highly relevant article-headline pairs, showed about a 5 point increment in the ROUGE-L scores. To encourage future research, the annotated dataset as well as the annotation guidelines will be made publicly available.
- Abstract(参考訳): ニュースの見出し生成は、ニュースの読者とプロデューサーの両方にとって、生産性を高めるための重要なタスクである。
このタスクは、自動化されたニュース見出し生成モデルによって容易に支援できる。
しかし, ニュース記事に無関係な見出しの存在は, 生成モデルの準最適性能をもたらす。
本稿では,関連性に基づく見出し分類が,関連する見出しを生成する作業に大いに役立つことを提案する。
関連性に基づく見出し分類では、対応するニュース記事との関連性に基づいてニュースの見出しを分類する。
このタスクは英語で十分に確立されているが、注釈付きデータがないため、Teluguのような低リソース言語では未探索のままである。
このギャップに対処するために、26,178の記事と見出しのペアに78,534のアノテーションを含む、初めて人間に注釈を付けたTeClassを紹介した。
様々なベースラインモデルを用いて実験を行い、その結果を包括的に分析する。
さらに、TeClassデータセットを用いて様々な見出し生成モデルを微調整することで、この研究の影響を実証する。
ROUGE-Lスコアの約5ポイント向上を示した。
将来の研究を促進するため、アノテーション付きデータセットとアノテーションガイドラインが公開されている。
関連論文リスト
- Attention Sorting Combats Recency Bias In Long Context Language Models [69.06809365227504]
現在の言語モデルは、世代間の長いコンテキストを効率的に組み込むことができないことが多い。
この問題に対する主要なコントリビュータは,事前トレーニング中に学んだと思われる注意点である。
我々は、この事実を活用して注意ソートを導入する:1ステップのデコードを実行し、それらが受け取った注意によって文書をソートし、プロセスを繰り返し、新しくソートされたコンテキストで回答を生成する。
論文 参考訳(メタデータ) (2023-09-28T05:19:06Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Improving Truthfulness of Headline Generation [24.07832528012763]
最先端のエンコーダ・デコーダモデルでは,時には非現実的な見出しを生成することがある。
理由の1つは、モデルのトレーニングに使用される非現実的な監視データにあると推測する。
この研究は、データセットでかなりの数の非現実的なインスタンスを確認した後、非現実的なインスタンスを監督データから取り除くことで、問題を改善できるという仮説を立てた。
論文 参考訳(メタデータ) (2020-05-02T16:33:37Z) - Hooks in the Headline: Learning to Generate Headlines with Controlled
Styles [69.30101340243375]
我々は,見出しを3つのスタイルで強化する新しいタスク,Styllistic Headline Generation (SHG)を提案する。
TitleStylistは、要約と再構築タスクをマルチタスクフレームワークに組み合わせることで、スタイル固有の見出しを生成する。
我々のモデルが生成したアトラクションスコアは、最先端の要約モデルの9.68%を超え、人間による参照よりも優れています。
論文 参考訳(メタデータ) (2020-04-04T17:24:47Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。