論文の概要: How Does Counterfactually Augmented Data Impact Models for Social
Computing Constructs?
- arxiv url: http://arxiv.org/abs/2109.07022v1
- Date: Tue, 14 Sep 2021 23:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 02:46:41.699053
- Title: How Does Counterfactually Augmented Data Impact Models for Social
Computing Constructs?
- Title(参考訳): ソーシャル・コンピューティングにおける非現実的なデータインパクトモデルの構築
- Authors: Indira Sen, Mattia Samory, Fabian Floeck, Claudia Wagner, Isabelle
Augenstein
- Abstract要約: 本研究では、感情、性差別、ヘイトスピーチという3つのソーシャル・コンピューティング構造に着目し、社会的NLPモデルに対する反実的強化データ(CAD)の利点について検討する。
CADでトレーニングしたモデルではドメイン内性能が低下するが、ドメイン外性能は向上する。
- 参考スコア(独自算出の注目度): 35.29235215101502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As NLP models are increasingly deployed in socially situated settings such as
online abusive content detection, it is crucial to ensure that these models are
robust. One way of improving model robustness is to generate counterfactually
augmented data (CAD) for training models that can better learn to distinguish
between core features and data artifacts. While models trained on this type of
data have shown promising out-of-domain generalizability, it is still unclear
what the sources of such improvements are. We investigate the benefits of CAD
for social NLP models by focusing on three social computing constructs --
sentiment, sexism, and hate speech. Assessing the performance of models trained
with and without CAD across different types of datasets, we find that while
models trained on CAD show lower in-domain performance, they generalize better
out-of-domain. We unpack this apparent discrepancy using machine explanations
and find that CAD reduces model reliance on spurious features. Leveraging a
novel typology of CAD to analyze their relationship with model performance, we
find that CAD which acts on the construct directly or a diverse set of CAD
leads to higher performance.
- Abstract(参考訳): NLPモデルは、オンラインの嫌がらせコンテンツ検出など、社会的に位置する環境にますます展開されているため、これらのモデルが堅牢であることを保証することが不可欠である。
モデルの堅牢性を改善する方法の1つは、コア機能とデータアーティファクトの区別をよりよく学習できるトレーニングモデルのための、反ファクト的な拡張データ(CAD)を生成することである。
この種のデータに基づいてトレーニングされたモデルでは、ドメイン外の一般化性が期待できるが、そのような改善の源泉が何であるかは不明だ。
社会的NLPモデルに対するCADの利点を,感情,性差別,ヘイトスピーチの3つのソーシャルコンピューティング構造に着目して検討する。
CADで訓練されたモデルと、異なる種類のデータセットで訓練されたモデルの性能を評価すると、CADで訓練されたモデルはドメイン内性能が低いが、ドメイン外性能を一般化する。
機械的説明を用いて、この明らかな相違を解き、CADが素早い機能によるモデル依存を減らすことを発見した。
CADの新たな類型学を活用してモデル性能との関係を解析した結果,構成体に直接作用するCADや多種多様なCADがより高い性能をもたらすことがわかった。
関連論文リスト
- PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models [0.7373617024876725]
本稿では,ContrastCAD という,CAD モデルを学習するための対照的な学習手法を提案する。
コントラストCADはCADモデルの構成シーケンス内の意味情報を効果的にキャプチャする。
また,RRE法(Random Replace and Extrude)と呼ばれる新しいCADデータ拡張手法を提案し,モデルの学習性能を向上させる。
論文 参考訳(メタデータ) (2024-04-02T05:30:39Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - People Make Better Edits: Measuring the Efficacy of LLM-Generated
Counterfactually Augmented Data for Harmful Language Detection [35.89913036572029]
NLPモデルは、刺激的な特徴に対して堅牢であることは必須である。
過去の作業は、トレーニングデータ拡張を使用して、このような急激な機能に対処しようと試みてきた。
生成NLPモデルを用いて,このタスクが自動化可能かどうかを評価する。
論文 参考訳(メタデータ) (2023-11-02T14:31:25Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z) - Counterfactually Augmented Data and Unintended Bias: The Case of Sexism
and Hate Speech Detection [35.29235215101502]
コア機能を過度に参照すると、意図しないモデルバイアスが発生する可能性がある。
我々は、挑戦的なデータに基づいて性差別とヘイトスピーチ検出のモデルをテストする。
構成駆動で構成に依存しない、さまざまなCADセットを使用することで、意図しないバイアスを減らします。
論文 参考訳(メタデータ) (2022-05-09T12:39:26Z) - An Investigation of the (In)effectiveness of Counterfactually Augmented
Data [10.316235366821111]
その結果,CADは頑健な特徴を識別する上で有効であるが,頑健な特徴の学習を阻害する可能性が示唆された。
その結果、現在のCADデータセットにおける摂動多様性の欠如は、OOD一般化におけるその効果を制限していることがわかった。
論文 参考訳(メタデータ) (2021-07-01T21:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。