論文の概要: Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals
- arxiv url: http://arxiv.org/abs/2305.13535v1
- Date: Mon, 22 May 2023 23:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:10:49.539882
- Title: Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals
- Title(参考訳): Pairwise Counterfactualsのアクティブ生成による分類ロバスト性の向上
- Authors: Ananth Balashankar, Xuezhi Wang, Yao Qin, Ben Packer, Nithum Thain,
Jilin Chen, Ed H. Chi, Alex Beutel
- Abstract要約: 本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。
少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
- 参考スコア(独自算出の注目度): 22.916599410472102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual Data Augmentation (CDA) is a commonly used technique for
improving robustness in natural language classifiers. However, one fundamental
challenge is how to discover meaningful counterfactuals and efficiently label
them, with minimal human labeling cost. Most existing methods either completely
rely on human-annotated labels, an expensive process which limits the scale of
counterfactual data, or implicitly assume label invariance, which may mislead
the model with incorrect labels. In this paper, we present a novel framework
that utilizes counterfactual generative models to generate a large number of
diverse counterfactuals by actively sampling from regions of uncertainty, and
then automatically label them with a learned pairwise classifier. Our key
insight is that we can more correctly label the generated counterfactuals by
training a pairwise classifier that interpolates the relationship between the
original example and the counterfactual. We demonstrate that with a small
amount of human-annotated counterfactual data (10%), we can generate a
counterfactual augmentation dataset with learned labels, that provides an
18-20% improvement in robustness and a 14-21% reduction in errors on 6
out-of-domain datasets, comparable to that of a fully human-annotated
counterfactual dataset for both sentiment classification and question
paraphrase tasks.
- Abstract(参考訳): Counterfactual Data Augmentation (CDA) は、自然言語分類器の堅牢性を改善するための一般的な手法である。
しかし、基本的な課題の1つは、人間のラベル付けコストを最小限に抑えて、意味のある偽物を発見し、効率的にラベル付けする方法である。
既存のほとんどの手法は、人間の注釈付きラベルに完全に依存しているか、偽造データの規模を制限する高価なプロセスか、ラベルの不変性を暗黙的に仮定する。
本稿では,不確かさの領域から積極的にサンプリングし,学習されたペアワイズ分類器で自動的にラベルを付けることにより,反事実生成モデルを用いて多種多様な反事実を生成する新しい枠組みを提案する。
我々の重要な洞察は、元の例と反事実の関係を補間するペアワイズ分類器を訓練することで、生成された反事実をより正確にラベル付けできるということである。
人間の注釈付き対実データ(10%)が少ないと、学習ラベルによる対実的増補データセットを生成でき、このデータセットは、感情分類と疑問パラフレーズタスクの両方のための完全な人間アノテーション付き対実データに匹敵する、6つの外部データセットにおけるロバスト性の改善と14-21%のエラー削減を提供する。
関連論文リスト
- Coupled Confusion Correction: Learning from Crowds with Sparse
Annotations [43.94012824749425]
2つのモデルで学習した融合行列は、他のモデルの蒸留データによって補正することができる。
我々は、類似の専門知識を共有するアノテータグループの'をクラスタ化し、それらの混乱行列を一緒に修正できるようにします。
論文 参考訳(メタデータ) (2023-12-12T14:47:26Z) - Increasing Diversity While Maintaining Accuracy: Text Data Generation
with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。
LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文 参考訳(メタデータ) (2023-06-07T04:27:09Z) - Beyond Active Learning: Leveraging the Full Potential of Human
Interaction via Auto-Labeling, Human Correction, and Human Verification [3.58439716487063]
Active Learning(AL)は、データインスタンスをインタラクティブかつ適応的にラベル付けする、ヒューマン・イン・ザ・ループのフレームワークである。
CLARIFIERは人間との対話をより効果的に活用できる対話型学習フレームワークである。
論文 参考訳(メタデータ) (2023-06-02T05:40:11Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Robustness to Spurious Correlations in Text Classification via
Automatically Generated Counterfactuals [8.827892752465958]
自動生成された反実データを用いてトレーニングデータを増強し、堅牢なテキスト分類器のトレーニングを提案する。
因果的特徴を強調し,非因果的特徴を強調することで,ロバスト分類器は有意義で信頼性の高い予測を行うことを示す。
論文 参考訳(メタデータ) (2020-12-18T03:57:32Z) - How to trust unlabeled data? Instance Credibility Inference for Few-Shot
Learning [47.21354101796544]
本稿では,未ラベルのインスタンスを数発の視覚認識に利用するために,ICI (Instance Credibility Inference) と呼ばれる統計的アプローチを提案する。
擬似ラベル付きインスタンスの信頼性は, それらの付随パラメータの正規化経路に沿ってランク付けし, 最も信頼性の高い擬似ラベル付きインスタンスを拡張ラベル付きインスタンスとして保存する。
論文 参考訳(メタデータ) (2020-07-15T03:38:09Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。