論文の概要: Annotation Guidelines for the Turku Paraphrase Corpus
- arxiv url: http://arxiv.org/abs/2108.07499v1
- Date: Tue, 17 Aug 2021 08:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 20:19:30.286867
- Title: Annotation Guidelines for the Turku Paraphrase Corpus
- Title(参考訳): トゥルクパラフレーズコーパスの注釈ガイドライン
- Authors: Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri
Skantsi, Jemina Kilpel\"ainen, Hanna-Mari Kupari, Aurora Piirto, Jenna
Saarni, Maija Sev\'on, Otto Tarkka
- Abstract要約: この文書は、トゥルク語句コーパスの構築に使用される注釈ガイドラインを記述している。
我々のパラフレーズアノテーションスキームはベーススケール1-4を使用し、ラベル1と2は負の候補(パラフレーズではない)に使用される。
基本ラベルに加え、このスキームには2つの正のラベルの中で異なる種類のパラフレーズを分類するための追加のサブカテゴリ(フラッグ)が組み込まれている。
- 参考スコア(独自算出の注目度): 0.6538951857199963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document describes the annotation guidelines used to construct the Turku
Paraphrase Corpus. These guidelines were developed together with the corpus
annotation, revising and extending the guidelines regularly during the
annotation work. Our paraphrase annotation scheme uses the base scale 1-4,
where labels 1 and 2 are used for negative candidates (not paraphrases), while
labels 3 and 4 are paraphrases at least in the given context if not everywhere.
In addition to base labeling, the scheme is enriched with additional
subcategories (flags) for categorizing different types of paraphrases inside
the two positive labels, making the annotation scheme suitable for more
fine-grained paraphrase categorization. The annotation scheme is used to
annotate over 100,000 Finnish paraphrase pairs.
- Abstract(参考訳): 本論文は、turuparaphraseコーパスの構築に使用されるアノテーションガイドラインについて述べる。
これらのガイドラインはコーパスアノテーションとともに開発され、アノテーション作業中にガイドラインを定期的に修正および拡張した。
私たちのパラフレーズアノテーションスキームはベーススケール1-4を使用し、ラベル1と2は負の候補(パラフレーズではない)に使われ、ラベル3と4は少なくとも与えられた文脈で与えられたパラフレーズである。
基本ラベリングに加えて、2つの正のラベル内の異なる種類のパラフラスを分類するための追加のサブカテゴリ(flag)が強化され、より細かいパラフラス分類に適したアノテーションスキームとなる。
このアノテーションスキームは、10万以上のフィンランド語のパラフレーズ対に注釈をつけるのに使われる。
関連論文リスト
- Annotation Guidelines for Corpus Novelties: Part 1 -- Named Entity Recognition [3.4955349700835034]
本書では、その注釈中に適用されるガイドラインについて記述する。
注釈者による指示や、注釈付き小説から取り出された多くの例を含んでいる。
論文 参考訳(メタデータ) (2024-10-03T08:03:40Z) - Annotation Guidelines for Corpus Novelties: Part 2 -- Alias Resolution Version 1.0 [3.4955349700835034]
ノベルティ・コーパス(英: Novelties corpus)は、エイリアス・レゾリューションに注釈を付けた小説(と小説の一部)のコレクションである。
この文書は、アノテーションのプロセスで適用されるガイドラインを記述します。
論文 参考訳(メタデータ) (2024-10-01T09:06:52Z) - Segmentation en phrases : ouvrez les guillemets sans perdre le fil [0.08192907805418582]
本稿ではXML文書の文セグメンテーションのためのグラフカスケードを提案する。
本提案では,引用マークやハイフンによって導入された症例について,文中の文を提示すると共に,括弧による切開や,大腸で導入されたリストに特に注意を払っている。
論文 参考訳(メタデータ) (2024-07-29T09:02:38Z) - Unsupervised Mapping of Arguments of Deverbal Nouns to Their
Corresponding Verbal Labels [52.940886615390106]
デバーバル名詞は英語の文章でよく使われる動詞で、出来事や行動やその議論を記述している。
名前付けされた構成の引数を扱うために存在する解決策は意味論的アノテーションに基づいている。
本稿では,より統語的アプローチを導入し,デバーバル名詞の議論を対応する動詞構成にマッピングする。
論文 参考訳(メタデータ) (2023-06-24T10:07:01Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Contrastive Bootstrapping for Label Refinement [34.55195008779178]
通路のラベルを反復的に洗練するための軽量なコントラストクラスタリングに基づくブートストラップ法を提案する。
NYTと20Newsの実験は、我々の手法が最先端の手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2023-06-07T15:49:04Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - The Annotation Guideline of LST20 Corpus [0.3161954199291541]
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
論文 参考訳(メタデータ) (2020-08-12T01:16:45Z) - A Corpus Study and Annotation Schema for Named Entity Recognition and
Relation Extraction of Business Products [68.26059718611914]
製品エンティティのアノテーションと企業-製品関係の言及のためのコーパススタディ、アノテーションスキーマおよび関連ガイドラインを提示する。
積の言及はしばしば名詞句として認識されるが、境界の曖昧さのため、その正確な範囲を定義することは困難である。
提案ガイドラインに準じて,英文Webおよびソーシャルメディア文書の事前コーパスを提示する。
論文 参考訳(メタデータ) (2020-04-07T11:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。