論文の概要: FRACAS: A FRench Annotated Corpus of Attribution relations in newS
- arxiv url: http://arxiv.org/abs/2309.10604v1
- Date: Tue, 19 Sep 2023 13:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:25:16.823707
- Title: FRACAS: A FRench Annotated Corpus of Attribution relations in newS
- Title(参考訳): FRACAS:新Sにおける属性関係の注釈付きコーパス
- Authors: Ange Richard, Laura Alonzo-Canul, Fran\c{c}ois Portet
- Abstract要約: 引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quotation extraction is a widely useful task both from a sociological and
from a Natural Language Processing perspective. However, very little data is
available to study this task in languages other than English. In this paper, we
present a manually annotated corpus of 1676 newswire texts in French for
quotation extraction and source attribution. We first describe the composition
of our corpus and the choices that were made in selecting the data. We then
detail the annotation guidelines and annotation process, as well as a few
statistics about the final corpus and the obtained balance between quote types
(direct, indirect and mixed, which are particularly challenging). We end by
detailing our inter-annotator agreement between the 8 annotators who worked on
manual labelling, which is substantially high for such a difficult linguistic
phenomenon.
- Abstract(参考訳): 引用抽出は、社会学的および自然言語処理の観点から、広く有用なタスクである。
しかし、このタスクを英語以外の言語で研究するためのデータはほとんどない。
本稿では,フランス語で1676のニュースワイヤテキストを手作業でアノテートしたコーパスを用いて引用抽出とソースの帰属を行う。
まず,コーパスの構成とデータ選択における選択について述べる。
次に、アノテーションガイドラインとアノテーションプロセス、および最後のコーパスに関するいくつかの統計と、得られた引用型(特に困難である、直接、間接、混合)のバランスについて詳述する。
最後に、手作業によるラベリングに携わる8人の注釈者の間でのアノテーション間合意を詳述する。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Quotations, Coreference Resolution, and Sentiment Annotations in
Croatian News Articles: An Exploratory Study [0.0]
本論文はクロアチアのSETimesニュースコーパスにおける引用,共参照解決,感情アノテーションのアノテーションに焦点を当てている。
引用機能アノテーションを備えた生成されたコーパスは、自然言語処理の分野における複数のタスクに使用できる。
論文 参考訳(メタデータ) (2022-12-14T11:54:12Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。