論文の概要: FRACAS: A FRench Annotated Corpus of Attribution relations in newS
- arxiv url: http://arxiv.org/abs/2309.10604v1
- Date: Tue, 19 Sep 2023 13:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:25:16.823707
- Title: FRACAS: A FRench Annotated Corpus of Attribution relations in newS
- Title(参考訳): FRACAS:新Sにおける属性関係の注釈付きコーパス
- Authors: Ange Richard, Laura Alonzo-Canul, Fran\c{c}ois Portet
- Abstract要約: 引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quotation extraction is a widely useful task both from a sociological and
from a Natural Language Processing perspective. However, very little data is
available to study this task in languages other than English. In this paper, we
present a manually annotated corpus of 1676 newswire texts in French for
quotation extraction and source attribution. We first describe the composition
of our corpus and the choices that were made in selecting the data. We then
detail the annotation guidelines and annotation process, as well as a few
statistics about the final corpus and the obtained balance between quote types
(direct, indirect and mixed, which are particularly challenging). We end by
detailing our inter-annotator agreement between the 8 annotators who worked on
manual labelling, which is substantially high for such a difficult linguistic
phenomenon.
- Abstract(参考訳): 引用抽出は、社会学的および自然言語処理の観点から、広く有用なタスクである。
しかし、このタスクを英語以外の言語で研究するためのデータはほとんどない。
本稿では,フランス語で1676のニュースワイヤテキストを手作業でアノテートしたコーパスを用いて引用抽出とソースの帰属を行う。
まず,コーパスの構成とデータ選択における選択について述べる。
次に、アノテーションガイドラインとアノテーションプロセス、および最後のコーパスに関するいくつかの統計と、得られた引用型(特に困難である、直接、間接、混合)のバランスについて詳述する。
最後に、手作業によるラベリングに携わる8人の注釈者の間でのアノテーション間合意を詳述する。
関連論文リスト
- IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Quotations, Coreference Resolution, and Sentiment Annotations in
Croatian News Articles: An Exploratory Study [0.0]
本論文はクロアチアのSETimesニュースコーパスにおける引用,共参照解決,感情アノテーションのアノテーションに焦点を当てている。
引用機能アノテーションを備えた生成されたコーパスは、自然言語処理の分野における複数のタスクに使用できる。
論文 参考訳(メタデータ) (2022-12-14T11:54:12Z) - Monolingual alignment of word senses and definitions in lexicographical
resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文 参考訳(メタデータ) (2022-09-06T13:09:52Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Event Guided Denoising for Multilingual Relation Learning [2.4192504570921627]
ラベルなしテキストから関係抽出のための高品質なトレーニングデータを収集する手法を提案する。
提案手法は,日誌に記載されたニュース記事の予測可能な分布構造を利用して,認知コーパスを構築する。
このコーパスで訓練されたより小さな多言語エンコーダが、現在の最先端技術と同等に動作することを示す。
論文 参考訳(メタデータ) (2020-12-04T17:11:04Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。