論文の概要: Explore Spurious Correlations at the Concept Level in Language Models for Text Classification
- arxiv url: http://arxiv.org/abs/2311.08648v4
- Date: Sun, 16 Jun 2024 01:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:31:28.949907
- Title: Explore Spurious Correlations at the Concept Level in Language Models for Text Classification
- Title(参考訳): テキスト分類のための言語モデルの概念レベルでのすっきりとした相関関係の探索
- Authors: Yuhang Zhou, Paiheng Xu, Xiaoyu Liu, Bang An, Wei Ai, Furong Huang,
- Abstract要約: 言語モデル(LM)は多くのNLPタスクで顕著な成功を収めた。
トレーニングデータやICLの実践者の不均衡なラベル分布から生じる急激な相関による堅牢性の問題に直面している。
本稿では,2つの主なコントリビューションを紹介する。まず,概念ラベルをテキストに割り当てるためにChatGPTを用い,テストデータ上での微調整時のモデルにおける概念バイアスやICLを評価する。
第2に,ChatGPT生成した反ファクトデータを組み込んだデータ再バランス手法を導入し,ラベル分布のバランスを保ち,突発的相関を緩和する。
- 参考スコア(独自算出の注目度): 28.832684088975622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) have achieved notable success in numerous NLP tasks, employing both fine-tuning and in-context learning (ICL) methods. While language models demonstrate exceptional performance, they face robustness challenges due to spurious correlations arising from imbalanced label distributions in training data or ICL exemplars. Previous research has primarily concentrated on word, phrase, and syntax features, neglecting the concept level, often due to the absence of concept labels and difficulty in identifying conceptual content in input texts. This paper introduces two main contributions. First, we employ ChatGPT to assign concept labels to texts, assessing concept bias in models during fine-tuning or ICL on test data. We find that LMs, when encountering spurious correlations between a concept and a label in training or prompts, resort to shortcuts for predictions. Second, we introduce a data rebalancing technique that incorporates ChatGPT-generated counterfactual data, thereby balancing label distribution and mitigating spurious correlations. Our method's efficacy, surpassing traditional token removal approaches, is validated through extensive testing.
- Abstract(参考訳): 言語モデル(LM)は多くのNLPタスクで顕著な成功を収め、微調整と文脈内学習(ICL)の両方の手法を用いている。
言語モデルは例外的な性能を示すが、トレーニングデータやICLの実践者におけるラベルの不均衡分布から生じる急激な相関関係により、頑健さの課題に直面している。
これまでの研究は主に単語、フレーズ、構文の特徴に焦点を合わせてきたが、概念レベルを無視することはしばしば、概念ラベルの欠如や、入力テキストにおける概念内容の特定が困難であったためである。
本稿では2つの主な貢献を紹介する。
まず、ChatGPTを用いてテキストに概念ラベルを割り当て、テストデータ上での微調整やICL中のモデルにおける概念バイアスを評価する。
LMは、トレーニングやプロンプトにおいて概念とラベルの間に急激な相関に遭遇する場合、予測のショートカットを利用する。
第2に,ChatGPT生成した反ファクトデータを組み込んだデータ再バランス手法を導入し,ラベル分布のバランスを保ち,突発的相関を緩和する。
従来のトークン除去手法を超越した手法の有効性を広範囲な試験により検証した。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Larger language models do in-context learning differently [93.90674531127559]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。
ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文 参考訳(メタデータ) (2023-03-07T12:24:17Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。