論文の概要: Generalized but not Robust? Comparing the Effects of Data Modification
Methods on Out-of-Domain Generalization and Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2203.07653v1
- Date: Tue, 15 Mar 2022 05:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:18:59.504696
- Title: Generalized but not Robust? Comparing the Effects of Data Modification
Methods on Out-of-Domain Generalization and Adversarial Robustness
- Title(参考訳): 一般化したものの頑丈ではない?
データ修正手法が外部一般化と対向ロバスト性に及ぼす影響の比較
- Authors: Tejas Gokhale, Swaroop Mishra, Man Luo, Bhavdeep Singh Sachdeva and
Chitta Baral
- Abstract要約: 我々は、共通データ修正戦略について検討し、そのドメイン内および敵対的ロバスト性を評価する。
以上の結果から,OODの精度とARの両面で,より多くのデータ(追加のデータセットやデータ拡張)が有用であることが示唆された。
しかし、データフィルタリングは質問応答や画像分類といった他のタスクのOOD精度を損なう。
- 参考スコア(独自算出の注目度): 27.868217989276797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data modification, either via additional training datasets, data
augmentation, debiasing, and dataset filtering, has been proposed as an
effective solution for generalizing to out-of-domain (OOD) inputs, in both
natural language processing and computer vision literature. However, the effect
of data modification on adversarial robustness remains unclear. In this work,
we conduct a comprehensive study of common data modification strategies and
evaluate not only their in-domain and OOD performance, but also their
adversarial robustness (AR). We also present results on a two-dimensional
synthetic dataset to visualize the effect of each method on the training
distribution. This work serves as an empirical study towards understanding the
relationship between generalizing to unseen domains and defending against
adversarial perturbations. Our findings suggest that more data (either via
additional datasets or data augmentation) benefits both OOD accuracy and AR.
However, data filtering (previously shown to improve OOD accuracy on natural
language inference) hurts OOD accuracy on other tasks such as question
answering and image classification. We provide insights from our experiments to
inform future work in this direction.
- Abstract(参考訳): 追加のトレーニングデータセット、データ拡張、デバイアス、データセットフィルタリングによるデータ修正は、自然言語処理とコンピュータビジョンの文献の両方において、ドメイン外入力(ood)に一般化するための効果的なソリューションとして提案されている。
しかし,データ修正が敵の強靭性に及ぼす影響は明らかでない。
本研究では,共通データ修正戦略の包括的研究を行い,そのドメイン内およびオード性能だけでなく,ar(adversarial robustness)についても評価する。
また,2次元合成データセットを用いて,各手法がトレーニング分布に与える影響を可視化する。
この研究は、目に見えない領域への一般化と敵の摂動に対する防御の関係を理解するための実証的研究である。
以上の結果から,OODの精度とARの両面で,より多くのデータ(追加データセットやデータ拡張)が有用であることが示唆された。
しかし、データフィルタリング(以前は自然言語推論におけるOODの精度向上が示されていた)は、質問応答や画像分類などのタスクにおいてOODの精度を損なう。
私たちは、この方向の将来の仕事を伝えるために、実験から洞察を与えます。
関連論文リスト
- RICASSO: Reinforced Imbalance Learning with Class-Aware Self-Supervised Outliers Exposure [21.809270017579806]
ディープラーニングモデルは、不均衡(ロングテール)とアウト・オブ・ディストリビューション(OOD)の両方のデータから、しばしば課題に直面します。
本研究は、データ混合により、IDデータとOODデータの両方の特徴を示す擬似OODデータを生成することができることを示す。
RICASSO(Reinforced Im Balance Learning)と呼ばれる統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:29:32Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - Clarifying Myths About the Relationship Between Shape Bias, Accuracy, and Robustness [18.55761892159021]
ディープラーニングモデルは、トレーニングセットと同じ分布のイメージに対して評価すると、うまく機能する。
ディープラーニングモデルは、トレーニングセットと同じ分布のイメージに対して評価すると、うまく機能する。
モデルの入力画像に小さなぼかしを適用して、アウト・オブ・ディストリビューション(OOD)データでモデルに供給することで、モデルの精度を著しく低下させることができる。
データ拡張は、OODデータに対するモデルロバスト性を改善するための、十分に実践された方法の1つである。
論文 参考訳(メタデータ) (2024-06-07T15:21:00Z) - Mixture Data for Training Cannot Ensure Out-of-distribution Generalization [21.801115344132114]
トレーニングデータのサイズが大きくなると、必ずしもテスト一般化誤差が減少するとは限らない。
本研究では,OODデータを混合学習データの凸内外にあるデータとして定量的に再定義する。
新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が、目に見えないデータに対して保証されることに同意する。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Harnessing Out-Of-Distribution Examples via Augmenting Content and Style [93.21258201360484]
機械学習モデルは、Out-Of-Distribution(OOD)の例に弱い。
本稿では,各画像インスタンスのコンテンツとスタイルを利用して良質なOODデータと悪性なOODデータを識別するHOOD法を提案する。
提案されている新しいアンタングル化とデータ拡張技術により、HOODは未知およびオープンな環境でのOODの例を効果的に扱うことができる。
論文 参考訳(メタデータ) (2022-07-07T08:48:59Z) - Learning Infomax and Domain-Independent Representations for Causal
Effect Inference with Real-World Data [9.601837205635686]
上記の問題を解くためにInfomaxとDomain-Independent Representationsを学習する。
提案手法は,因果関係の推論における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-22T13:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。