論文の概要: Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization
- arxiv url: http://arxiv.org/abs/2212.09409v2
- Date: Tue, 23 May 2023 14:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:54:21.706711
- Title: Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization
- Title(参考訳): 領域外一般化のための群集アノテーションによる多視点知識蒸留
- Authors: Dustin Wright and Isabelle Augenstein
- Abstract要約: 本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する新しい手法を提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて、最も一貫したパフォーマンスをもたらすことを実証する。
- 参考スコア(独自算出の注目度): 53.24606510691877
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Selecting an effective training signal for tasks in natural language
processing is difficult: expert annotations are expensive, and crowd-sourced
annotations may not be reliable. At the same time, recent work in NLP has
demonstrated that learning from a distribution over labels acquired from crowd
annotations can be effective. However, there are many ways to acquire such a
distribution, and the performance allotted by any one method can fluctuate
based on the task and the amount of available crowd annotations, making it
difficult to know a priori which distribution is best. This paper
systematically analyzes this in the out-of-domain setting, adding to the NLP
literature which has focused on in-domain evaluation, and proposes new methods
for acquiring soft-labels from crowd-annotations by aggregating the
distributions produced by existing methods. In particular, we propose to
aggregate multiple-views of crowd annotations via temperature scaling and
finding their Jensen-Shannon centroid. We demonstrate that these aggregation
methods lead to the most consistent performance across four NLP tasks on
out-of-domain test sets, mitigating fluctuations in performance from the
individual distributions. Additionally, aggregation results in the most
consistently well-calibrated uncertainty estimation. We argue that aggregating
different views of crowd-annotations is an effective and minimal intervention
to acquire soft-labels which induce robust classifiers despite the
inconsistency of the individual soft-labeling methods.
- Abstract(参考訳): 自然言語処理におけるタスクの効果的なトレーニング信号の選択は難しい。専門家アノテーションは高価であり、クラウドソースアノテーションは信頼性が低い。
同時に、NLPにおける最近の研究は、クラウドアノテーションから取得したラベルの分布から学習することが効果的であることを示した。
しかし,そのような分布を得るには多くの方法があり,どの方法によって割り当てられた性能も,そのタスクと利用可能なクラウドアノテーションの量に基づいて変動しうるため,どの分布が最適であるかを事前に知ることは困難である。
本論文はドメイン外設定においてこれを体系的に分析し,ドメイン内評価に注目したnlp文献に加え,既存の手法で生成した分布を集約することで,クラウド注釈からソフトラベルを取得する新しい手法を提案する。
特に,温度スケールとjensen-shannon centroidの発見により,クラウドアノテーションの複数ビューを集約することを提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて最も一貫したパフォーマンスをもたらし、個々の分布からの性能変動を緩和することを示した。
さらに、アグリゲーションは最も一貫した不確実性推定をもたらす。
クラウドアノテーションの異なる視点を集約することは,個々のソフトラベル手法の不一致にもかかわらず,堅牢な分類器を誘導するソフトラベルを取得するための効果的かつ最小限の介入である。
関連論文リスト
- Self-Knowledge Distillation for Learning Ambiguity [11.755814660833549]
最近の言語モデルは、その正確さを考慮せずに単一のラベルを過度に予測することが多い。
本稿では,ラベル分布をより正確に学習できる新しい自己知識蒸留法を提案する。
本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。
論文 参考訳(メタデータ) (2024-06-14T05:11:32Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Crowd Counting with Sparse Annotation [28.793141115957564]
スパースラベリングは、完全なアノテーションの冗長性を減らし、遠い個人からより多様な情報を捉えることができると論じる。
本稿では,画像全体からスパースアノテーションを用いて群集を探索するために,ポイントベースプログレッシブポイントマッチングネットワーク(PPM)を提案する。
実験結果から,PPMは従来の半教師あり群集カウント法よりも,同じ量のアノテーションで,大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-04-12T17:57:48Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Learning from Crowds with Sparse and Imbalanced Annotations [29.596070201105274]
クラウドソーシングは、非専門家の群衆を頼りにすることで、効率的なラベリングソリューションとして自らを確立した。
一般的には、各インスタンスを複数のワーカに配布するが、各ワーカはデータのサブセットのみをアノテートする。
本稿では、自信ある擬似アノテーションを段階的に追加し、アノテーション分布を再バランスさせることにより、自己学習に基づく1つのアプローチ、Self-Crowdを提案する。
論文 参考訳(メタデータ) (2021-07-11T13:06:20Z) - CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific
Perturbations for Tabular Data [8.276156981100364]
コティーチング手法は、ノイズの多いラベルによるコンピュータビジョン問題に対する有望な改善を示している。
我々のモデルであるcrowdteacherは、入力空間モデルのロバスト性がノイズラベルの分類器の摂動を改善することができるという考えを採用している。
合成データと実データの両方でCrowdTeacherを用いて予測能力の向上を示す。
論文 参考訳(メタデータ) (2021-03-31T15:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。