Fugu-MT 論文翻訳(概要): Efficiently Robustify Pre-trained Models

論文の概要: Efficiently Robustify Pre-trained Models

arxiv url: http://arxiv.org/abs/2309.07499v1
Date: Thu, 14 Sep 2023 08:07:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 15:47:01.099643
Title: Efficiently Robustify Pre-trained Models
Title（参考訳）: 事前学習モデルの効率的ロバスト化
Authors: Nishant Jain, Harkirat Behl, Yogesh Singh Rawat, Vibhav Vineet
Abstract要約: 大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
参考スコア（独自算出の注目度）: 18.392732966487582
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A recent trend in deep learning algorithms has been towards training large scale models, having high parameter count and trained on big dataset. However, robustness of such large scale models towards real-world settings is still a less-explored topic. In this work, we first benchmark the performance of these models under different perturbations and datasets thereby representing real-world shifts, and highlight their degrading performance under these shifts. We then discuss on how complete model fine-tuning based existing robustification schemes might not be a scalable option given very large scale networks and can also lead them to forget some of the desired characterstics. Finally, we propose a simple and cost-effective method to solve this problem, inspired by knowledge transfer literature. It involves robustifying smaller models, at a lower computation cost, and then use them as teachers to tune a fraction of these large scale networks, reducing the overall computational overhead. We evaluate our proposed method under various vision perturbations including ImageNet-C,R,S,A datasets and also for transfer learning, zero-shot evaluation setups on different datasets. Benchmark results show that our method is able to induce robustness to these large scale models efficiently, requiring significantly lower time and also preserves the transfer learning, zero-shot properties of the original model which none of the existing methods are able to achieve.
Abstract（参考訳）: ディープラーニングアルゴリズムの最近のトレンドは、大規模モデルをトレーニングし、パラメータ数が高く、ビッグデータでトレーニングすることにある。しかし、このような大規模モデルの現実の設定への堅牢性は、まだ未解決の話題である。本研究では,まず,様々な摂動やデータセットの下でのモデルの性能をベンチマークし,実世界の変化を表現し,それらの変化下での劣化性能を強調する。次に,大規模ネットワークにおいては,既存のロバスト化スキームの完全モデルがスケーラブルな選択肢にならない可能性について論じるとともに,所望の文字を忘れる可能性についても論じる。最後に,知識伝達文献に着想を得た簡易で費用対効果の高い手法を提案する。より小さなモデルをより低い計算コストで堅牢化し、それを教師として使用して、これらの大規模なネットワークの一部をチューニングすることで、全体的な計算オーバーヘッドを低減します。提案手法は,imagenet-c,r,s,aデータセット,転送学習,ゼロショット評価設定などの様々な視覚摂動下で評価する。ベンチマーク結果から,本手法はこれらの大規模モデルに対して効率よくロバスト性を誘導し,時間を大幅に短縮し,既存の手法では達成できない移動学習,ゼロショット特性を維持できることが示唆された。

関連論文リスト

Scaling Laws for Pre-training Agents and World Models [22.701210075508147]
エンボディエージェントの性能は、モデルパラメータ、データセットサイズ、計算量を増やして改善されている。本稿では,これらの課題におけるスケールの役割を,より正確に評価する。
論文参考訳（メタデータ） (2024-11-07T04:57:40Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。提案手法では,パラメータ数を70%以上圧縮できる。また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文参考訳（メタデータ） (2023-12-16T23:23:16Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文参考訳（メタデータ） (2020-12-24T19:34:56Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。