論文の概要: NoticIA: A Clickbait Article Summarization Dataset in Spanish
- arxiv url: http://arxiv.org/abs/2404.07611v1
- Date: Thu, 11 Apr 2024 09:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:19:15.610201
- Title: NoticIA: A Clickbait Article Summarization Dataset in Spanish
- Title(参考訳): NoticIA: スペイン語のクリックベイト記事要約データセット
- Authors: Iker García-Ferrero, Begoña Altuna,
- Abstract要約: スペインの850のニュース記事からなるデータセットであるNoticIAを紹介します。
このタスクは高度なテキスト理解と要約能力を必要とし、様々な情報を推測し接続するモデルの能力に挑戦する。
このデータセットを使って、タスク固有のモデルであるClickbaitFighterをトレーニングします。
- 参考スコア(独自算出の注目度): 0.276240219662896
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present NoticIA, a dataset consisting of 850 Spanish news articles featuring prominent clickbait headlines, each paired with high-quality, single-sentence generative summarizations written by humans. This task demands advanced text understanding and summarization abilities, challenging the models' capacity to infer and connect diverse pieces of information to meet the user's informational needs generated by the clickbait headline. We evaluate the Spanish text comprehension capabilities of a wide range of state-of-the-art large language models. Additionally, we use the dataset to train ClickbaitFighter, a task-specific model that achieves near-human performance in this task.
- Abstract(参考訳): NoticIAは850のスペイン語ニュース記事からなるデータセットで、目立ったクリックベイト見出しを特徴とし、それぞれが高品質で、人間によって書かれた単一文生成要約と組み合わせている。
このタスクは、高度なテキスト理解と要約能力を必要とし、クリックベイト見出しによって生成されるユーザの情報要求を満たすために、様々な情報を推測し、接続するためのモデルの能力に挑戦する。
我々は、幅広い最先端の大規模言語モデルのスペイン語テキスト理解能力を評価する。
さらに、このデータセットを使用して、このタスクでほぼ人間に近いパフォーマンスを達成するタスク固有のモデルであるClickbaitFighterをトレーニングします。
関連論文リスト
- DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts [27.218934418961197]
データストーリ生成のための新しいタスクと,さまざまなソースから1,449のストーリを含むベンチマークを導入する。
2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。
我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおけるユニークな課題を明らかにします。
論文 参考訳(メタデータ) (2024-08-09T21:31:33Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。