論文の概要: ARCH: Efficient Adversarial Regularized Training with Caching
- arxiv url: http://arxiv.org/abs/2109.07048v1
- Date: Wed, 15 Sep 2021 02:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:07:48.599116
- Title: ARCH: Efficient Adversarial Regularized Training with Caching
- Title(参考訳): ARCH:キャッシングによる効率の良い対向正規化トレーニング
- Authors: Simiao Zuo, Chen Liang, Haoming Jiang, Pengcheng He, Xiaodong Liu,
Jianfeng Gao, Weizhu Chen, Tuo Zhao
- Abstract要約: 逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。
本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。
提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
- 参考スコア(独自算出の注目度): 91.74682538906691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial regularization can improve model generalization in many natural
language processing tasks. However, conventional approaches are computationally
expensive since they need to generate a perturbation for each sample in each
epoch. We propose a new adversarial regularization method ARCH (adversarial
regularization with caching), where perturbations are generated and cached once
every several epochs. As caching all the perturbations imposes memory usage
concerns, we adopt a K-nearest neighbors-based strategy to tackle this issue.
The strategy only requires caching a small amount of perturbations, without
introducing additional training time. We evaluate our proposed method on a set
of neural machine translation and natural language understanding tasks. We
observe that ARCH significantly eases the computational burden (saves up to
70\% of computational time in comparison with conventional approaches). More
surprisingly, by reducing the variance of stochastic gradients, ARCH produces a
notably better (in most of the tasks) or comparable model generalization. Our
code is publicly available.
- Abstract(参考訳): 逆正規化は多くの自然言語処理タスクにおけるモデルの一般化を改善することができる。
しかし、従来の手法は、各エポックに各サンプルの摂動を生成する必要があるため、計算コストが高い。
本稿では,複数のエポック毎に摂動を発生・キャッシュする,新たな逆正則化手法 ARCH (adversarial regularization with cache) を提案する。
すべての摂動をキャッシュすることでメモリ使用の懸念が生じるため、この問題に対処するためにK-nearestの隣人ベースの戦略を採用しています。
この戦略は、追加のトレーニング時間を導入することなく、少量の摂動をキャッシュするだけで済む。
提案するニューラルマシン翻訳と自然言語理解タスクについて,提案手法を評価した。
archは計算の負担を大幅に軽減する(従来の手法と比較して計算時間の最大70%を節約する)。
さらに驚くべきことに、確率勾配の分散を減少させることで、ARCHは(ほとんどのタスクにおいて)顕著に優れたモデル一般化を生成する。
私たちのコードは公開されています。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Fast and Straggler-Tolerant Distributed SGD with Reduced Computation
Load [11.069252535469644]
勾配降下(SGD)のような最適化手順は、ストラグラーと呼ばれる非応答性や遅い労働者の影響を軽減するために利用することができる。
これは、ワーカのサブセットがアルゴリズムの各イテレーションで計算を完了するのを待つだけで実現できる。
我々は,アルゴリズムの実行時間を通じて,作業者数と計算負荷の両方を適応させる新しいスキームを構築した。
論文 参考訳(メタデータ) (2023-04-17T20:12:18Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Memory Efficient Continual Learning for Neural Text Classification [10.70710638820641]
そこで本研究では,事前学習モデルを用いてテキスト分類を行う手法を提案する。
実験により,本手法では,他の手法と比較して,モデルパラメータが著しく少ないことが実証された。
我々の手法はほとんど忘れられませんが、予測性能は技術水準と同等に保たれますが、メモリ効率は低いです。
論文 参考訳(メタデータ) (2022-03-09T10:57:59Z) - Robust Learning-Augmented Caching: An Experimental Study [8.962235853317996]
キャッシュにおける鍵となる最適化問題は、将来を知ることなく最適に解決できない。
学習強化アルゴリズムの新しい分野は、古典的なオンラインキャッシュアルゴリズムを活用するソリューションを提案する。
簡単な手法は、高い性能の予測器よりも低いオーバーヘッドしか持たないことを示す。
論文 参考訳(メタデータ) (2021-06-28T13:15:07Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Variance reduction for Random Coordinate Descent-Langevin Monte Carlo [7.464874233755718]
高速収束を提供するランゲヴィン・モンテカルロ(LMC)は勾配近似の計算を必要とする。
実際には、有限差分近似を代理として使用し、高次元では高価である。
本稿では,新しい分散低減手法であるCoordinates Averaging Descent (RCAD)を導入し,過度に損傷を受けたLCCと過度に損傷を受けたLCCを併用する。
論文 参考訳(メタデータ) (2020-06-10T21:08:38Z) - ScaIL: Classifier Weights Scaling for Class Incremental Learning [12.657788362927834]
ディープラーニングのアプローチでは、一定の計算予算は、すべてのインクリメンタルな状態に対して固定されたアーキテクチャを使用する必要がある。
境界メモリは、新しいクラスに有利なデータ不均衡を生成し、それらに対する予測バイアスが現れる。
過去のクラス分類器の重み付けを,新しいクラスに匹敵するものにするために,単純かつ効率的なスケーリングを提案する。
論文 参考訳(メタデータ) (2020-01-16T12:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。