論文の概要: Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese
- arxiv url: http://arxiv.org/abs/2308.13170v2
- Date: Tue, 11 Jun 2024 19:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:42:48.250093
- Title: Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese
- Title(参考訳): 分類におけるスプーラス相関の測定--英訳における「クレバーハンズ」について
- Authors: Angana Borah, Daria Pylypenko, Cristina Espana-Bonet, Josef van Genabith,
- Abstract要約: トピックベースの素早い相関に注目し,2つの方向から質問にアプローチする。
本研究では,教師なしトピックと対象分類ラベルとのアライメントを指標として,データ中の素早いトピック情報の表示方法を開発した。
本手法はクラスタリングにおける純度と同一であることを示し,分類のための「トピックフロア」(「ノイズフロア」など)を提案する。
- 参考スコア(独自算出の注目度): 11.478503501597967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown evidence of 'Clever Hans' behavior in high-performance neural translationese classifiers, where BERT-based classifiers capitalize on spurious correlations, in particular topic information, between data and target classification labels, rather than genuine translationese signals. Translationese signals are subtle (especially for professional translation) and compete with many other signals in the data such as genre, style, author, and, in particular, topic. This raises the general question of how much of the performance of a classifier is really due to spurious correlations in the data versus the signals actually targeted for by the classifier, especially for subtle target signals and in challenging (low resource) data settings. We focus on topic-based spurious correlation and approach the question from two directions: (i) where we have no knowledge about spurious topic information and its distribution in the data, (ii) where we have some indication about the nature of spurious topic correlations. For (i) we develop a measure from first principles capturing alignment of unsupervised topics with target classification labels as an indication of spurious topic information in the data. We show that our measure is the same as purity in clustering and propose a 'topic floor' (as in a 'noise floor') for classification. For (ii) we investigate masking of known spurious topic carriers in classification. Both (i) and (ii) contribute to quantifying and (ii) to mitigating spurious correlations.
- Abstract(参考訳): 近年の研究では、BERTをベースとした分類器が、真の翻訳信号ではなく、データとターゲット分類ラベルの間の素早い相関、特にトピック情報に乗じている、高性能なニューラル翻訳分類器における「クレバーハンズ」の挙動を示す証拠が示されている。
翻訳信号は微妙な(特に専門的な翻訳のために)、ジャンル、スタイル、著者、特にトピックといった他の多くの信号と競合する。
このことは、特に微妙なターゲット信号や挑戦的な(リソースの低い)データ設定において、分類器のパフォーマンスが、実際に分類器がターゲットとする信号と、データの急激な相関によるものであるという一般的な疑問を提起する。
トピックベースの素早い相関に注目し、質問に2つの方向からアプローチする。
一 急激な話題情報及びデータにおけるその分布に関する知識がない場合。
(II) 突発的トピック相関の性質について, 若干の指標が得られた。
目的
(i)データ中の素早い話題情報の指標として,教師なしトピックと対象分類ラベルとのアライメントを捉えた第一原理から尺度を作成する。
本手法はクラスタリングにおける純度と同一であることを示し,分類のための「トピックフロア」(「ノイズフロア」など)を提案する。
目的
(II) 既知の話題担体の分類におけるマスキングについて検討する。
両方
(i)および
(二)定量化及び定量化に寄与する
(ii)急激な相関を緩和する。
関連論文リスト
- Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。
本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。
予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文 参考訳(メタデータ) (2024-05-06T17:12:21Z) - A Study on How Attention Scores in the BERT Model are Aware of Lexical Categories in Syntactic and Semantic Tasks on the GLUE Benchmark [0.0]
本研究では,下流タスクの微調整過程において,BERTモデルのトークン間の注意スコアが語彙カテゴリによって大きく異なるかを検討する。
本仮説は, 意味情報を優先する下流作業においては, 内容語を中心とした注意スコアが強化され, 統語的情報を重視する場合には, 機能語を中心とした注意スコアが強化されることを示唆する。
論文 参考訳(メタデータ) (2024-03-25T06:18:18Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - PatchMix Augmentation to Identify Causal Features in Few-shot Learning [55.64873998196191]
少ないショット学習は、十分なカテゴリをラベル付けしたデータに基づいて学習した知識を、少ない既知の情報を持つ新しいカテゴリに転送することを目的としている。
我々はPatchMixと呼ばれる新しいデータ拡張戦略を提案し、この急激な依存関係を壊すことができる。
このような拡張メカニズムが,既存のメカニズムと異なり,因果的特徴を識別可能であることを示す。
論文 参考訳(メタデータ) (2022-11-29T08:41:29Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Neural Contrastive Clustering: Fully Unsupervised Bias Reduction for
Sentiment Classification [0.0]
感情分類における相関バイアスは、しばしば議論の的になっているトピックに関する会話で生じる。
本研究では、感情分類ラベルに基づくクラスタを、教師なしトピックモデリングによって生成されたクラスタと対比するために、逆学習を用いる。
これにより、ニューラルネットワークは、バイアス付き分類結果を生成するトピック関連の特徴を学習するのを妨げる。
論文 参考訳(メタデータ) (2022-04-22T02:34:41Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T03:49:22Z) - A Systematic Evaluation: Fine-Grained CNN vs. Traditional CNN
Classifiers [54.996358399108566]
本稿では,大規模分類データセット上でトップノーチ結果を示すランドマーク一般的なCNN分類器の性能について検討する。
最先端のきめ細かい分類器と比較する。
実験において, 粒度の細かい分類器がベースラインを高められるかどうかを判定するために, 6つのデータセットについて広範囲に評価する。
論文 参考訳(メタデータ) (2020-03-24T23:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。