論文の概要: Design Choices for Crowdsourcing Implicit Discourse Relations: Revealing
the Biases Introduced by Task Design
- arxiv url: http://arxiv.org/abs/2304.00815v1
- Date: Mon, 3 Apr 2023 09:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:07:41.642935
- Title: Design Choices for Crowdsourcing Implicit Discourse Relations: Revealing
the Biases Introduced by Task Design
- Title(参考訳): 暗黙の談話関係をクラウドソーシングするための設計選択--タスク設計によるバイアスの顕在化
- Authors: Valentina Pyatkin, Frances Yung, Merel C.J. Scholman, Reut Tsarfaty,
Ido Dagan, Vera Demberg
- Abstract要約: タスク設計は、アノテータを特定の関係に向かわせることができることを示す。
このタイプのバイアスは、トレーニングやテストモデルにおいて考慮すべきである、と結論付けています。
- 参考スコア(独自算出の注目度): 23.632204469647526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disagreement in natural language annotation has mostly been studied from a
perspective of biases introduced by the annotators and the annotation
frameworks. Here, we propose to analyze another source of bias: task design
bias, which has a particularly strong impact on crowdsourced linguistic
annotations where natural language is used to elicit the interpretation of
laymen annotators. For this purpose we look at implicit discourse relation
annotation, a task that has repeatedly been shown to be difficult due to the
relations' ambiguity. We compare the annotations of 1,200 discourse relations
obtained using two distinct annotation tasks and quantify the biases of both
methods across four different domains. Both methods are natural language
annotation tasks designed for crowdsourcing. We show that the task design can
push annotators towards certain relations and that some discourse relations
senses can be better elicited with one or the other annotation approach. We
also conclude that this type of bias should be taken into account when training
and testing models.
- Abstract(参考訳): 自然言語アノテーションの識別は、アノテーションやアノテーションフレームワークによって導入されたバイアスの観点から研究されている。
そこで,本研究では,自然言語を用いて名詞の解釈を導出するクラウドソース言語アノテーションに対して,特に強い影響を与えるタスク設計バイアス(task design bias)を提案する。
この目的のために,関係の曖昧さから繰り返し難易度が示された暗黙の談話関係アノテーションについて考察する。
2つの異なるアノテーションタスクを用いて得られた1200の談話関係のアノテーションを比較し、4つの異なるドメインにわたって両方のメソッドのバイアスを定量化する。
どちらのメソッドもクラウドソーシング用に設計された自然言語アノテーションタスクである。
タスク設計は、特定の関係に注釈者を押し付けることができ、いくつかの談話関係感覚は、一方または他方のアノテーションアプローチによりよりよく導かれることが示される。
また、トレーニングやテストモデルでは、このようなバイアスを考慮するべきだと結論付けています。
関連論文リスト
- Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks [17.033055327465238]
データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-12-14T15:38:22Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial
Expressions [35.24301299033675]
本稿では,視覚的対話における言語理解の微粒化を調査するための枠組みを提案する。
われわれはOneCommon Corpus citepudgawa 2019natural,udgawa 2020annotatedに注目する。
我々は,それらの言語構造をテクスト空間表現に基づいて分析し,600の対話に対して包括的で信頼性の高いアノテーションを提供する。
論文 参考訳(メタデータ) (2020-10-07T02:50:38Z) - On the Branching Bias of Syntax Extracted from Pre-trained Language
Models [47.82102426290707]
本稿では,言語とその逆言語の性能ギャップを比較することで,分岐バイアスを定量的に測定する。
分岐バイアス,すなわち解析アルゴリズム,特徴定義,言語モデルに対する3つの要因の影響を分析する。
論文 参考訳(メタデータ) (2020-10-06T03:09:14Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。