論文の概要: Generalized but not Robust? Comparing the Effects of Data Modification
Methods on Out-of-Domain Generalization and Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2203.07653v1
- Date: Tue, 15 Mar 2022 05:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:18:59.504696
- Title: Generalized but not Robust? Comparing the Effects of Data Modification
Methods on Out-of-Domain Generalization and Adversarial Robustness
- Title(参考訳): 一般化したものの頑丈ではない?
データ修正手法が外部一般化と対向ロバスト性に及ぼす影響の比較
- Authors: Tejas Gokhale, Swaroop Mishra, Man Luo, Bhavdeep Singh Sachdeva and
Chitta Baral
- Abstract要約: 我々は、共通データ修正戦略について検討し、そのドメイン内および敵対的ロバスト性を評価する。
以上の結果から,OODの精度とARの両面で,より多くのデータ(追加のデータセットやデータ拡張)が有用であることが示唆された。
しかし、データフィルタリングは質問応答や画像分類といった他のタスクのOOD精度を損なう。
- 参考スコア(独自算出の注目度): 27.868217989276797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data modification, either via additional training datasets, data
augmentation, debiasing, and dataset filtering, has been proposed as an
effective solution for generalizing to out-of-domain (OOD) inputs, in both
natural language processing and computer vision literature. However, the effect
of data modification on adversarial robustness remains unclear. In this work,
we conduct a comprehensive study of common data modification strategies and
evaluate not only their in-domain and OOD performance, but also their
adversarial robustness (AR). We also present results on a two-dimensional
synthetic dataset to visualize the effect of each method on the training
distribution. This work serves as an empirical study towards understanding the
relationship between generalizing to unseen domains and defending against
adversarial perturbations. Our findings suggest that more data (either via
additional datasets or data augmentation) benefits both OOD accuracy and AR.
However, data filtering (previously shown to improve OOD accuracy on natural
language inference) hurts OOD accuracy on other tasks such as question
answering and image classification. We provide insights from our experiments to
inform future work in this direction.
- Abstract(参考訳): 追加のトレーニングデータセット、データ拡張、デバイアス、データセットフィルタリングによるデータ修正は、自然言語処理とコンピュータビジョンの文献の両方において、ドメイン外入力(ood)に一般化するための効果的なソリューションとして提案されている。
しかし,データ修正が敵の強靭性に及ぼす影響は明らかでない。
本研究では,共通データ修正戦略の包括的研究を行い,そのドメイン内およびオード性能だけでなく,ar(adversarial robustness)についても評価する。
また,2次元合成データセットを用いて,各手法がトレーニング分布に与える影響を可視化する。
この研究は、目に見えない領域への一般化と敵の摂動に対する防御の関係を理解するための実証的研究である。
以上の結果から,OODの精度とARの両面で,より多くのデータ(追加データセットやデータ拡張)が有用であることが示唆された。
しかし、データフィルタリング(以前は自然言語推論におけるOODの精度向上が示されていた)は、質問応答や画像分類などのタスクにおいてOODの精度を損なう。
私たちは、この方向の将来の仕事を伝えるために、実験から洞察を与えます。
関連論文リスト
- Revisiting Data Augmentation in Deep Reinforcement Learning [3.660182910533372]
画像に基づく深部強化学習(DRL)において、様々なデータ拡張技術が提案されている。
既存の手法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。
この分析は、データ拡張をより原則的に活用する方法を推奨する。
論文 参考訳(メタデータ) (2024-02-19T14:42:10Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Harnessing Out-Of-Distribution Examples via Augmenting Content and Style [93.21258201360484]
機械学習モデルは、Out-Of-Distribution(OOD)の例に弱い。
本稿では,各画像インスタンスのコンテンツとスタイルを利用して良質なOODデータと悪性なOODデータを識別するHOOD法を提案する。
提案されている新しいアンタングル化とデータ拡張技術により、HOODは未知およびオープンな環境でのOODの例を効果的に扱うことができる。
論文 参考訳(メタデータ) (2022-07-07T08:48:59Z) - Learning Infomax and Domain-Independent Representations for Causal
Effect Inference with Real-World Data [9.601837205635686]
上記の問題を解くためにInfomaxとDomain-Independent Representationsを学習する。
提案手法は,因果関係の推論における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-22T13:35:15Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。