論文の概要: Re-Examining Human Annotations for Interpretable NLP
- arxiv url: http://arxiv.org/abs/2204.04580v1
- Date: Sun, 10 Apr 2022 02:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 00:37:03.388218
- Title: Re-Examining Human Annotations for Interpretable NLP
- Title(参考訳): 解釈可能なNLPのための人間のアノテーションの再検討
- Authors: Cheng-Han Chiang and Hung-yi Lee
- Abstract要約: 我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
- 参考スコア(独自算出の注目度): 80.81532239566992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explanation methods in Interpretable NLP often explain the model's decision
by extracting evidence (rationale) from the input texts supporting the
decision. Benchmark datasets for rationales have been released to evaluate how
good the rationale is. The ground truth rationales in these datasets are often
human annotations obtained via crowd-sourced websites. Valuable as these
datasets are, the details on how those human annotations are obtained are often
not clearly specified. We conduct comprehensive controlled experiments using
crowd-sourced websites on two widely used datasets in Interpretable NLP to
understand how those unsaid details can affect the annotation results.
Specifically, we compare the annotation results obtained from recruiting
workers satisfying different levels of qualification. We also provide
high-quality workers with different instructions for completing the same
underlying tasks. Our results reveal that the annotation quality is highly
subject to the workers' qualification, and workers can be guided to provide
certain annotations by the instructions. We further show that specific
explanation methods perform better when evaluated using the ground truth
rationales obtained by particular instructions. Based on these observations, we
highlight the importance of providing complete details of the annotation
process and call for careful interpretation of any experiment results obtained
using those annotations.
- Abstract(参考訳): 解釈可能なnlpにおける説明方法は、決定を支持する入力テキストから証拠(合理性)を抽出することで、しばしばモデルの決定を説明する。
合理的性を評価するためのベンチマークデータセットがリリースされた。
これらのデータセットの基本的真理は、しばしばクラウドソースのウェブサイトから得られる人間のアノテーションである。
これらのデータセットが有益であるように、これらの人間のアノテーションの取得方法の詳細は、しばしば明確に指定されない。
In Interpretable NLPで広く使われている2つのデータセット上で,クラウドソースWebサイトを用いた包括的な制御実験を行い,それらの詳細がアノテーションの結果に与える影響を理解する。
具体的には、異なる資格レベルを満たした採用作業員による注記結果を比較する。
また、同じタスクを完了するための異なる指示を持つ高品質なワーカーも提供します。
その結果, 注記品質は作業者の資格に強く依存しており, 作業者の指示により特定の注記を提供するよう指導できることがわかった。
さらに,特定の指示によって得られた基底的真理の合理性を用いて評価すると,特定の説明手法がより良く機能することを示す。
これらの観察に基づいて,アノテーションプロセスの完全な詳細を提供し,アノテーションを用いて得られた実験結果を注意深く解釈することの重要性を強調する。
関連論文リスト
- On the Biased Assessment of Expert Finding Systems [11.083396379885478]
大きな組織では、特定のトピックについて専門家を特定することが、チームや部門にまたがる内部知識を活用する上で非常に重要です。
このケーススタディでは、これらのレコメンデーションが専門家発見システムの評価に与える影響について分析する。
本稿では,システム検証アノテーションが従来の用語ベース検索モデルの性能過大評価につながることを示す。
また,同義語を用いた知識領域を拡大し,その構成語に対するリテラル言及に対する強い偏見を明らかにする。
論文 参考訳(メタデータ) (2024-10-07T13:19:08Z) - Annotator in the Loop: A Case Study of In-Depth Rater Engagement to Create a Bridging Benchmark Dataset [1.825224193230824]
本稿では,アノテーションのための新規かつ協調的かつ反復的なアノテーション手法について述べる。
以上の結果から,アノテータとの連携によりアノテーションの手法が強化されることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T19:11:08Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Selective Annotation via Data Allocation: These Data Should Be Triaged to Experts for Annotation Rather Than the Model [42.70608373297776]
我々は、SANTと呼ばれる選択的なアノテーションフレームワークを提案する。
提案した誤り認識トリアージと二重み付け機構により、トリアージ・ツー・ヒューマンデータとトリアージ・ツー・モデルデータの両方を効果的に活用する。
実験の結果、SANTは他のベースラインを一貫して上回り、専門家とモデルワーカーの両方にデータの適切な割り当てを通じて高品質なアノテーションをもたらすことが示された。
論文 参考訳(メタデータ) (2024-05-20T14:52:05Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - On Releasing Annotator-Level Labels and Information in Datasets [6.546195629698355]
ラベルアグリゲーションは,個人的視点とグループ的視点の表現バイアスをもたらす可能性があることを示す。
下流のユースケースに対するデータセットの有用性と透明性を高めるための推奨事項を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:35:45Z) - Teach Me to Explain: A Review of Datasets for Explainable NLP [6.256505195819595]
説明可能なNLP(ExNLP)は、人間の注釈付き説明の収集にますます注力しています。
これらの説明は、予測タスクのパフォーマンスを改善するためのデータ拡張、モデルに予測を説明するための説明を訓練するための損失信号、モデル生成された説明の品質を評価する手段として、下流の3つの方法で使用される。
本稿では,3つの主要な説明クラス(highlights,free-text,structured)を特定し,各型に注釈を付けて文献を整理し,これまでに学んだことを指摘し,将来的にはexnlpデータセットの収集を推奨する。
論文 参考訳(メタデータ) (2021-02-24T04:25:01Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。