論文の概要: ezCoref: Towards Unifying Annotation Guidelines for Coreference
Resolution
- arxiv url: http://arxiv.org/abs/2210.07188v1
- Date: Thu, 13 Oct 2022 17:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:59:17.292160
- Title: ezCoref: Towards Unifying Annotation Guidelines for Coreference
Resolution
- Title(参考訳): ezCoref: 参照解決のためのアノテーションガイドラインの統合を目指して
- Authors: Ankita Gupta, Marzena Karpinska, Wenlong Zhao, Kalpesh Krishna, Jack
Merullo, Luke Yeh, Mohit Iyyer, Brendan O'Connor
- Abstract要約: クラウドソーシングに優しいコア参照アノテーション方法論であるezCorefを,アノテーションツールと対話型チュートリアルで構築する。
ezCorefを使用して、既存の7つの英語コアデータセット(フィクション、ニュース、その他複数のドメイン)から240のパスを再注釈し、これらのデータセットで同じように扱われるケースのみをアノテータに教えます。
驚くべきことに、十分な品質のアノテーションはすでに達成可能であり(群衆と専門家のアノテーションの間では>90%の合意)、広範囲のトレーニングがなくても使えます。
- 参考スコア(独自算出の注目度): 28.878540389202367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale, high-quality corpora are critical for advancing research in
coreference resolution. However, existing datasets vary in their definition of
coreferences and have been collected via complex and lengthy guidelines that
are curated for linguistic experts. These concerns have sparked a growing
interest among researchers to curate a unified set of guidelines suitable for
annotators with various backgrounds. In this work, we develop a
crowdsourcing-friendly coreference annotation methodology, ezCoref, consisting
of an annotation tool and an interactive tutorial. We use ezCoref to
re-annotate 240 passages from seven existing English coreference datasets
(spanning fiction, news, and multiple other domains) while teaching annotators
only cases that are treated similarly across these datasets. Surprisingly, we
find that reasonable quality annotations were already achievable (>90%
agreement between the crowd and expert annotations) even without extensive
training. On carefully analyzing the remaining disagreements, we identify the
presence of linguistic cases that our annotators unanimously agree upon but
lack unified treatments (e.g., generic pronouns, appositives) in existing
datasets. We propose the research community should revisit these phenomena when
curating future unified annotation guidelines.
- Abstract(参考訳): 大規模で高品質なコーパスは、コリファレンスレゾリューションの研究を進める上で重要である。
しかし、既存のデータセットはコア参照の定義によって異なり、言語専門家のためにキュレートされた複雑で長いガイドラインを通じて収集されている。
これらの懸念が、様々な背景を持つアノテーターに適した統一されたガイドラインを策定する研究者の間で関心が高まっている。
本研究では,アノテーションツールとインタラクティブなチュートリアルからなる,クラウドソーシング指向のコリファレンスアノテーション方法論であるezcorefを開発した。
ezcorefを使って、既存の7つの英語コリファレンスデータセット(フィクション、ニュース、その他複数のドメイン)から240の節を再注釈し、これらのデータセットで同じように扱われるケースのみを注釈子に教える。
驚くべきことに、十分な品質のアノテーションはすでに達成可能であり(群衆と専門家のアノテーションの間では>90%の合意)、広範囲のトレーニングがなくても使えます。
残りの不一致を慎重に分析することで、既存のデータセットに統一的な処理(例えば、ジェネリック代名詞、アポティファイ)が欠如している言語的ケースの存在を識別する。
今後の統一アノテーションガイドラインをまとめるにあたって,研究コミュニティはこれらの現象を再検討すべきである。
関連論文リスト
- Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。
本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。
我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文 参考訳(メタデータ) (2024-05-24T14:56:36Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Different Tastes of Entities: Investigating Human Label Variation in
Named Entity Annotations [23.059491714512077]
本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
論文 参考訳(メタデータ) (2024-02-02T14:08:34Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Extending an Event-type Ontology: Adding Verbs and Classes Using
Fine-tuned LLMs Suggestions [0.0]
語彙拡張タスクに先進的な機械学習手法を用いて事前アノテートしたデータについて検討した。
自動スコアと人間のアノテーションの相関について検討した。
相関性は強いが, アノテーションの固有性に対する影響は, ほぼ線形性から緩やかである。
論文 参考訳(メタデータ) (2023-06-03T14:57:47Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Monolingual alignment of word senses and definitions in lexicographical
resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文 参考訳(メタデータ) (2022-09-06T13:09:52Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z) - CASE: Context-Aware Semantic Expansion [68.30244980290742]
本稿では,CASE(Context-Aware Semantic Expansion)と呼ばれる新しいタスクを定義し,検討する。
セマンティックな文脈でシード項が与えられた場合、その文脈に適した他の用語をシードとして提案することを目指している。
このタスクのアノテーションは,既存のコーパスから完全に自動で,大規模に抽出可能であることを示す。
論文 参考訳(メタデータ) (2019-12-31T06:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。