論文の概要: Aggregating Crowdsourced and Automatic Judgments to Scale Up a Corpus of
Anaphoric Reference for Fiction and Wikipedia Texts
- arxiv url: http://arxiv.org/abs/2210.05581v1
- Date: Tue, 11 Oct 2022 16:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:55:03.931470
- Title: Aggregating Crowdsourced and Automatic Judgments to Scale Up a Corpus of
Anaphoric Reference for Fiction and Wikipedia Texts
- Title(参考訳): クラウドソーシングと自動判断の集約による辞書とウィキペディアテキストのアナフォリック参照コーパスのスケールアップ
- Authors: Juntao Yu, Silviu Paun, Maris Camilleri, Paloma Carretero Garcia, Jon
Chamberlain, Udo Kruschwitz, Massimo Poesio
- Abstract要約: 本稿では,ゲーム・ウィズ・ア・ユースを通じてラベル付けされたアナフォリック参照のためのコーパスの新たなリリースを紹介する。
これは、プレイヤーのかなりの活動のために、アナフォリック参照のための最大の既存のコーパスに匹敵する大きさである。
提案手法は,ゲーム・アズ・ア・ユースを含む他のプロジェクトにおいて,アノテーション時間を大幅に高速化するために適用できる。
- 参考スコア(独自算出の注目度): 16.42217979543271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although several datasets annotated for anaphoric reference/coreference
exist, even the largest such datasets have limitations in terms of size, range
of domains, coverage of anaphoric phenomena, and size of documents included.
Yet, the approaches proposed to scale up anaphoric annotation haven't so far
resulted in datasets overcoming these limitations. In this paper, we introduce
a new release of a corpus for anaphoric reference labelled via a
game-with-a-purpose. This new release is comparable in size to the largest
existing corpora for anaphoric reference due in part to substantial activity by
the players, in part thanks to the use of a new resolve-and-aggregate paradigm
to 'complete' markable annotations through the combination of an anaphoric
resolver and an aggregation method for anaphoric reference. The proposed method
could be adopted to greatly speed up annotation time in other projects
involving games-with-a-purpose. In addition, the corpus covers genres for which
no comparable size datasets exist (Fiction and Wikipedia); it covers singletons
and non-referring expressions; and it includes a substantial number of long
documents (> 2K in length).
- Abstract(参考訳): 照応的参照/参照のための注釈付きデータセットはいくつか存在するが、そのような最大のデータセットでさえも、サイズ、ドメインの範囲、照応的現象のカバレッジ、文書のサイズに制限がある。
しかし、アナフォリックアノテーションをスケールアップするアプローチは、これらの制限を克服するデータセットにはまだ至っていない。
本稿では,ゲームでラベル付けされた照応参照のためのコーパスを新たにリリースする。
この新リリースは、アナフォリックリゾルバとアナフォリック参照のアグリゲーションメソッドの組み合わせを通じて、マーク可能なアノテーションを「完全」するための新しい解決・集約パラダイムを使用することによって、プレイヤーによる実質的な活動のために、既存のアナフォリック参照のための最大のコーパスに匹敵する大きさである。
提案手法は,ゲーム・アズ・ア・ユースを含む他のプロジェクトにおいて,アノテーション時間を大幅に高速化する。
さらに、コーパスは、比較サイズのデータセットが存在しないジャンル(フィクションとwikipedia)をカバーし、シングルトンとノンレギュラー表現をカバーし、相当数の長い文書(長さ2k)を含んでいる。
関連論文リスト
- Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。
本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文 参考訳(メタデータ) (2024-05-08T10:10:38Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Longtonotes: OntoNotes with Longer Coreference Chains [111.73115731999793]
コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
論文 参考訳(メタデータ) (2022-10-07T15:58:41Z) - Scoring Coreference Chains with Split-Antecedent Anaphors [23.843305521306227]
そこで本研究では,既存メトリクスを識別アナフォラに一般化する技術的問題に対する解法を提案する。
これはアナフォラ(英語版)やコア参照(英語版)に関する文献で初めてのそのような提案であり、分割された複数の参照と談話のデクシスの両方を評価するのに成功している。
論文 参考訳(メタデータ) (2022-05-24T19:07:36Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Object Detection with a Unified Label Space from Multiple Datasets [94.33205773893151]
異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目標は、すべてのラベル空間の結合について予測する単一のオブジェクト検出器をトレーニングすることである。
あるデータセットにアノテートされているが、別のデータセットにアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。
顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景と見なされる。
本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。
論文 参考訳(メタデータ) (2020-08-15T00:51:27Z) - Joint Multi-Dimensional Model for Global and Time-Series Annotations [48.159050222769494]
クラウドソーシングは、ラベルのないデータインスタンスのアノテーションを収集する一般的なアプローチである。
その中には、複数のデータインスタンスから大量のアノテーションを集め、多くの場合、訓練されていないアノテータを各データインスタンスに集め、それらを組み合わせて基礎的な真実を見積もる。
しかし、ほとんどのアノテーション融合スキームはこの側面を無視し、各次元を別々にモデル化する。
本稿では,多次元アノテーション融合の生成モデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T20:08:46Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。