Fugu-MT 論文翻訳(概要): NoticIA: A Clickbait Article Summarization Dataset in Spanish

論文の概要: NoticIA: A Clickbait Article Summarization Dataset in Spanish

arxiv url: http://arxiv.org/abs/2404.07611v1
Date: Thu, 11 Apr 2024 09:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 14:19:15.610201
Title: NoticIA: A Clickbait Article Summarization Dataset in Spanish
Title（参考訳）: NoticIA: スペイン語のクリックベイト記事要約データセット
Authors: Iker García-Ferrero, Begoña Altuna,
Abstract要約: スペインの850のニュース記事からなるデータセットであるNoticIAを紹介します。このタスクは高度なテキスト理解と要約能力を必要とし、様々な情報を推測し接続するモデルの能力に挑戦する。このデータセットを使って、タスク固有のモデルであるClickbaitFighterをトレーニングします。
参考スコア（独自算出の注目度）: 0.276240219662896
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present NoticIA, a dataset consisting of 850 Spanish news articles featuring prominent clickbait headlines, each paired with high-quality, single-sentence generative summarizations written by humans. This task demands advanced text understanding and summarization abilities, challenging the models' capacity to infer and connect diverse pieces of information to meet the user's informational needs generated by the clickbait headline. We evaluate the Spanish text comprehension capabilities of a wide range of state-of-the-art large language models. Additionally, we use the dataset to train ClickbaitFighter, a task-specific model that achieves near-human performance in this task.
Abstract（参考訳）: NoticIAは850のスペイン語ニュース記事からなるデータセットで、目立ったクリックベイト見出しを特徴とし、それぞれが高品質で、人間によって書かれた単一文生成要約と組み合わせている。このタスクは、高度なテキスト理解と要約能力を必要とし、クリックベイト見出しによって生成されるユーザの情報要求を満たすために、様々な情報を推測し、接続するためのモデルの能力に挑戦する。我々は、幅広い最先端の大規模言語モデルのスペイン語テキスト理解能力を評価する。さらに、このデータセットを使用して、このタスクでほぼ人間に近いパフォーマンスを達成するタスク固有のモデルであるClickbaitFighterをトレーニングします。

関連論文リスト

A Comprehensive Dataset for Human vs. AI Generated Text Detection [23.0218614564443]
ニューヨーク・タイムズ紙の記事から58,000件以上のテキストサンプルからなる包括的データセットを提案する。このデータセットは、オリジナルの記事をプロンプトとして抽象化し、完全な人間による物語を提供する。 AI生成テキストと人書きテキストを区別し、AIテキストを8.92%の精度で生成モデルに関連付けるという2つの重要なタスクのベースライン結果を確立します。
論文参考訳（メタデータ） (2025-10-26T23:50:52Z)
MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文参考訳（メタデータ） (2025-02-25T08:53:27Z)
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification [4.450536872346658]
本稿では,適切な大きさの多言語ニュース分類モデルを開発するための教師学習フレームワークを提案する。このフレームワークは、IPTCメディアトピックトレーニングデータセットを開発するための教師モデルとして、ジェネレーティブ事前学習トランスフォーマー(GPT)モデルを使用している。生徒モデルは教師モデルに匹敵する高いパフォーマンスを達成する。我々は,IPTCメディアトピックスキーマの上位カテゴリで多言語分類が可能な,最高のニューストピックを公表する。
論文参考訳（メタデータ） (2024-11-29T11:42:58Z)
DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts [27.218934418961197]
データストーリ生成のための新しいタスクと,さまざまなソースから1,449のストーリを含むベンチマークを導入する。 2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおけるユニークな課題を明らかにします。
論文参考訳（メタデータ） (2024-08-09T21:31:33Z)
Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。単言語モデルと比較して,多言語モデルの性能を評価する。
論文参考訳（メタデータ） (2024-06-25T15:02:32Z)
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文参考訳（メタデータ） (2024-01-01T18:58:42Z)
Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2022-10-25T17:01:30Z)
Leveraging Natural Supervision for Language Representation Learning and Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-21T17:26:03Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文参考訳（メタデータ） (2021-09-02T16:05:24Z)
A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文参考訳（メタデータ） (2021-05-31T11:05:30Z)
An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文参考訳（メタデータ） (2021-03-10T16:36:39Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)
ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文参考訳（メタデータ） (2019-12-29T07:27:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。