論文の概要: Data Augmentation as Feature Manipulation: a story of desert cows and
grass cows
- arxiv url: http://arxiv.org/abs/2203.01572v1
- Date: Thu, 3 Mar 2022 08:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 14:32:11.197485
- Title: Data Augmentation as Feature Manipulation: a story of desert cows and
grass cows
- Title(参考訳): 特徴操作としてのデータ拡張:砂漠の牛と草の牛の物語
- Authors: Ruoqi Shen, S\'ebastien Bubeck, Suriya Gunasekar
- Abstract要約: 本研究では,データ拡張が学習過程のダイナミクスに与える影響について検討する。
データ拡張は、さまざまな機能の相対的重要性を変える可能性がある。
ニューラルネットワークのような非線形モデルでは,この効果がより顕著であることを示す。
- 参考スコア(独自算出の注目度): 10.405355207546487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a cornerstone of the machine learning pipeline, yet its
theoretical underpinnings remain unclear. Is it merely a way to artificially
augment the data set size? Or is it about encouraging the model to satisfy
certain invariance? In this work we consider another angle, and we study the
effect of data augmentation on the dynamic of the learning process. We find
that data augmentation can alter the relative importance of various features,
effectively making certain informative but hard to learn features more likely
to be captured in the learning process. Importantly, we show that this effect
is more pronounced for non-linear models, such as neural networks. Our main
contribution is a detailed analysis of data augmentation on the learning
dynamic for a two layer convolutional neural network in the recently proposed
multi-view model by Allen-Zhu and Li [2020]. We complement this analysis with
further experimental evidence that data augmentation can be viewed as a form of
feature manipulation.
- Abstract(参考訳): データ拡張は機械学習パイプラインの基礎であるが、その理論的基盤はいまだに不明である。
単にデータセットのサイズを人工的に拡張する方法なのだろうか?
あるいは、モデルにある種の不変性を満たすよう促すか?
本研究では,学習過程のダイナミック性に及ぼすデータ拡張の影響について検討する。
データ拡張によって、さまざまな機能の相対的重要性が変化し、効果的な情報を提供するが、学習プロセスで取得しやすい機能を学ぶことがより困難になる。
重要なことは、ニューラルネットワークのような非線形モデルでは、この効果がより顕著であることを示している。
本研究の主な貢献は,allen-zhuとli [2020]により最近提案されたマルチビューモデルにおける2層畳み込みニューラルネットワークの学習ダイナミクスに関するデータ拡張の詳細な解析である。
我々は、この分析を、データ拡張が特徴操作の一形態と見なせるというさらなる実験的な証拠で補完する。
関連論文リスト
- How Does Data Diversity Shape the Weight Landscape of Neural Networks? [2.89287673224661]
本稿では, ニューラルネットワークのパラメータ空間に対する降雨量, 重量減衰量, 騒音増大の影響について検討する。
我々は、多様なデータが、ドロップアウトと同様の方法で重量景観に影響を与えることを観察する。
合成データにより、実際の入力データにより多くの多様性がもたらされ、アウト・オブ・ディストリビューションテストインスタンスの性能が向上する、と結論付けている。
論文 参考訳(メタデータ) (2024-10-18T16:57:05Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Constructing Effective Machine Learning Models for the Sciences: A
Multidisciplinary Perspective [77.53142165205281]
線形回帰モデルに変数間の変換や相互作用を手動で追加することで、非線形解が必ずしも改善されないことを示す。
データ駆動モデルを構築する前にこれを認識する方法や、そのような分析が本質的に解釈可能な回帰モデルへの移行にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2022-11-21T17:48:44Z) - Exploring the Effects of Data Augmentation for Drivable Area
Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。
以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-06T03:39:37Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Malicious Network Traffic Detection via Deep Learning: An Information
Theoretic View [0.0]
本研究では,ホメオモルフィズムがマルウェアのトラフィックデータセットの学習表現に与える影響について検討する。
この結果から,学習された表現の詳細と,すべてのパラメータの多様体上で定義された特定の座標系は,関数近似とは全く異なることが示唆された。
論文 参考訳(メタデータ) (2020-09-16T15:37:44Z) - Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network [0.2855485723554975]
我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。
実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
論文 参考訳(メタデータ) (2020-06-19T14:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。