論文の概要: DirectQuote: A Dataset for Direct Quotation Extraction and Attribution
in News Articles
- arxiv url: http://arxiv.org/abs/2110.07827v1
- Date: Fri, 15 Oct 2021 02:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 04:20:57.057949
- Title: DirectQuote: A Dataset for Direct Quotation Extraction and Attribution
in News Articles
- Title(参考訳): DirectQuote:ニュース記事の直接引用抽出と帰属のためのデータセット
- Authors: Yuanchi Zhang, Yang Liu
- Abstract要約: 本稿では,オンラインメディアから手動で注釈付けされた19,760段落と10,279の直接引用を含むコーパスであるDirectQuoteを紹介する。
提案手法は,複数のシーケンスラベリングモデルをベースラインとして提案し,提案手法をエンド・ツー・エンドで同時抽出・属性付けする手法である。
- 参考スコア(独自算出の注目度): 6.006936459950188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quotation extraction and attribution are challenging tasks, aiming at
determining the spans containing quotations and attributing each quotation to
the original speaker. Applying this task to news data is highly related to
fact-checking, media monitoring and news tracking. Direct quotations are more
traceable and informative, and therefore of great significance among different
types of quotations. Therefore, this paper introduces DirectQuote, a corpus
containing 19,760 paragraphs and 10,279 direct quotations manually annotated
from online news media. To the best of our knowledge, this is the largest and
most complete corpus that focuses on direct quotations in news texts. We ensure
that each speaker in the annotation can be linked to a specific named entity on
Wikidata, benefiting various downstream tasks. In addition, for the first time,
we propose several sequence labeling models as baseline methods to extract and
attribute quotations simultaneously in an end-to-end manner.
- Abstract(参考訳): 引用抽出と帰属は難題であり、引用を含むスパンを決定し、各引用を元の話者に帰属させることを目的としている。
このタスクをニュースデータに適用することは、ファクトチェック、メディア監視、ニュース追跡と非常に関係がある。
直接引用はよりトレース可能で情報的であり、したがって様々な種類の引用の間で大きな意味を持つ。
そこで本稿では,19,760段落と10,279段落からなるコーパスであるdirectquoteについて紹介する。
我々の知る限りでは、これはニューステキストの直接引用に焦点を当てた最大かつ最も完全なコーパスである。
アノテーション内の各話者がWikidata上の特定の名前のエンティティにリンクできることを保証し、様々な下流タスクに役立てる。
さらに,本論文では,複数のシーケンスラベリングモデルをベースライン手法として提案し,提案手法をエンド・ツー・エンド方式で抽出・属性付けする。
関連論文リスト
- Rule-driven News Captioning [33.145889362997316]
ニュースキャプションタスクは、そのニュース記事で画像のための名前付きエンティティや具体的なイベントを記述することによって、文を生成することを目的としている。
既存の手法は、大規模な事前訓練モデルに依存することで、顕著な成果を上げている。
指定されたルール信号に従って画像記述を生成できるルール駆動型ニュースキャプション手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T07:06:43Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Monolingual alignment of word senses and definitions in lexicographical
resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文 参考訳(メタデータ) (2022-09-06T13:09:52Z) - Quote Erat Demonstrandum: A Web Interface for Exploring the Quotebank
Corpus [11.863216366085105]
本稿では,ニュースから引用した膨大なコレクションであるQuotebankを検索するための適応Webインターフェースを提案する。
記事はニュース記事の概念、受容、分析において中心的な役割を果たす。
論文 参考訳(メタデータ) (2022-07-07T21:41:03Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z) - Diverse, Controllable, and Keyphrase-Aware: A Corpus and Method for News
Multi-Headline Generation [98.98411895250774]
ユーザ関心のキーワードで複数の見出しを生成することを提案する。
提案手法は,品質と多様性の観点から,最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-04-08T08:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。