論文の概要: Budget Sensitive Reannotation of Noisy Relation Classification Data
Using Label Hierarchy
- arxiv url: http://arxiv.org/abs/2112.13320v1
- Date: Sun, 26 Dec 2021 05:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 05:33:48.737240
- Title: Budget Sensitive Reannotation of Noisy Relation Classification Data
Using Label Hierarchy
- Title(参考訳): ラベル階層を用いた雑音関係分類データの高感度再注釈
- Authors: Akshay Parekh, Ashish Anand, Amit Awekar
- Abstract要約: RCデータセットを選択的に再アノテートするための2つの戦略を提案する。
我々は、よく知られたTACREDデータセット上での再アノテーション戦略を評価する。
- 参考スコア(独自算出の注目度): 1.4146420810689422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large crowd-sourced datasets are often noisy and relation classification (RC)
datasets are no exception. Reannotating the entire dataset is one probable
solution however it is not always viable due to time and budget constraints.
This paper addresses the problem of efficient reannotation of a large noisy
dataset for the RC. Our goal is to catch more annotation errors in the dataset
while reannotating fewer instances. Existing work on RC dataset reannotation
lacks the flexibility about how much data to reannotate. We introduce the
concept of a reannotation budget to overcome this limitation. The immediate
follow-up problem is: Given a specific reannotation budget, which subset of the
data should we reannotate? To address this problem, we present two strategies
to selectively reannotate RC datasets. Our strategies utilize the taxonomic
hierarchy of relation labels. The intuition of our work is to rely on the graph
distance between actual and predicted relation labels in the label hierarchy
graph. We evaluate our reannotation strategies on the well-known TACRED
dataset. We design our experiments to answer three specific research questions.
First, does our strategy select novel candidates for reannotation? Second, for
a given reannotation budget is our reannotation strategy more efficient at
catching annotation errors? Third, what is the impact of data reannotation on
RC model performance measurement? Experimental results show that our both
reannotation strategies are novel and efficient. Our analysis indicates that
the current reported performance of RC models on noisy TACRED data is inflated.
- Abstract(参考訳): 大きなクラウドソースデータセットはしばしば騒がしく、関係分類(rc)データセットも例外ではない。
データセット全体をリアノテートすることは1つの可能な解決策だが、時間と予算の制約のため、常に実行可能であるとは限らない。
本稿では,RC用大雑音データセットの効率的な再注釈問題に対処する。
私たちの目標は、少ないインスタンスを再注釈しながら、データセットでより多くのアノテーションエラーをキャッチすることにあります。
rc dataset reannotationの既存の作業には、リアノテートするデータの柔軟性が欠けている。
この制限を克服するために、再注釈予算の概念を導入します。
特定の再注釈予算が与えられた場合、どの部分集合に再注釈を付けるべきか?
この問題に対処するために、RCデータセットを選択的に再注釈する2つの戦略を提案する。
我々の戦略は関係ラベルの分類学的階層を利用する。
私たちの研究の直感は、ラベル階層グラフの実際の関係ラベルと予測された関係ラベルの間のグラフ距離に依存することです。
我々は、よく知られたTACREDデータセット上での再アノテーション戦略を評価する。
3つの特定の研究質問に答えるために実験をデザインする。
第一に、我々の戦略は再注釈のために新しい候補を選ぶか?
第2に、所定の再アノテーション予算に対して、アノテーションエラーをキャッチするための再アノテーション戦略はより効率的か?
第三に、rcモデルの性能測定におけるデータ再注釈の影響は何か?
実験結果から,本手法は新規かつ効率的であることが示唆された。
解析の結果,騒音データに対するrcモデルの性能は増大していることがわかった。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - PromptORE -- A Novel Approach Towards Fully Unsupervised Relation
Extraction [0.0]
教師なし関係抽出(RE)は、トレーニング中にラベル付きデータにアクセスすることなく、テキスト内のエンティティ間の関係を識別することを目的としている。
本稿では,'Prompt-based Open Relation extract'モデルであるPromptOREを提案する。
我々は、新しいプロンプトチューニングパラダイムを教師なしの設定に適応させ、関係を表す文を埋め込む。
PromptOREは,B,V,ARIの40%以上の増加率を持つ最先端モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2023-03-24T12:55:35Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。