論文の概要: Learning to Generate Gradients for Test-Time Adaptation via Test-Time Training Layers
- arxiv url: http://arxiv.org/abs/2412.16901v1
- Date: Sun, 22 Dec 2024 07:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:18.358582
- Title: Learning to Generate Gradients for Test-Time Adaptation via Test-Time Training Layers
- Title(参考訳): テスト時間学習層を用いたテスト時間適応のための勾配生成学習
- Authors: Qi Deng, Shuaicheng Niu, Ronghao Zhang, Yaofo Chen, Runhao Zeng, Jian Chen, Xiping Hu,
- Abstract要約: テストタイム適応は、未ラベルのテストデータを使用してトレーニングされたモデルをオンラインで微調整することを目的としている。
この最適化プロセスでは、エントロピーのような教師なし学習目標がノイズの多い学習信号に頻繁に遭遇する。
そこで我々は,メタグラディエント・ジェネレータと呼ばれるエントロピー・ジェネレータを自動的に学習するために,学習と最適化のアプローチを採用した。
- 参考スコア(独自算出の注目度): 18.921532965557475
- License:
- Abstract: Test-time adaptation (TTA) aims to fine-tune a trained model online using unlabeled testing data to adapt to new environments or out-of-distribution data, demonstrating broad application potential in real-world scenarios. However, in this optimization process, unsupervised learning objectives like entropy minimization frequently encounter noisy learning signals. These signals produce unreliable gradients, which hinder the model ability to converge to an optimal solution quickly and introduce significant instability into the optimization process. In this paper, we seek to resolve these issues from the perspective of optimizer design. Unlike prior TTA using manually designed optimizers like SGD, we employ a learning-to-optimize approach to automatically learn an optimizer, called Meta Gradient Generator (MGG). Specifically, we aim for MGG to effectively utilize historical gradient information during the online optimization process to optimize the current model. To this end, in MGG, we design a lightweight and efficient sequence modeling layer -- gradient memory layer. It exploits a self-supervised reconstruction loss to compress historical gradient information into network parameters, thereby enabling better memorization ability over a long-term adaptation process. We only need a small number of unlabeled samples to pre-train MGG, and then the trained MGG can be deployed to process unseen samples. Promising results on ImageNet-C, R, Sketch, and A indicate that our method surpasses current state-of-the-art methods with fewer updates, less data, and significantly shorter adaptation iterations. Compared with a previous SOTA method SAR, we achieve 7.4% accuracy improvement and 4.2 times faster adaptation speed on ImageNet-C.
- Abstract(参考訳): テスト時間適応(TTA)は、未ラベルのテストデータを使用してトレーニングされたモデルをオンラインで微調整して、新たな環境や配布外データに適用し、現実世界のシナリオにおける広範なアプリケーションの可能性を示すことを目的としている。
しかし、この最適化プロセスでは、エントロピー最小化のような教師なし学習目標はしばしばノイズの多い学習信号に遭遇する。
これらの信号は信頼できない勾配を生じさせ、モデルが最適解に迅速に収束することを妨げ、最適化プロセスに重大な不安定をもたらす。
本稿では,最適化設計の観点から,これらの課題を解決することを目的とする。
SGDのような手動で設計したオプティマイザを使用する従来のTTAとは異なり、私たちはメタグラディエントジェネレータ(MGG)と呼ばれるオプティマイザを自動的に学習する学習最適化アプローチを採用しています。
具体的には,オンライン最適化プロセスにおいて,MGGが過去の勾配情報を効果的に活用し,現在のモデルを最適化することを目的としている。
この目的のために、MGGでは、軽量で効率的なシーケンスモデリング層 -- 勾配メモリ層を設計する。
自己教師付き再構築損失を利用して、履歴勾配情報をネットワークパラメータに圧縮し、長期適応プロセスよりも記憶能力を向上させる。
MGGを事前訓練するためには、少数のラベルのないサンプルしか必要とせず、トレーニング済みのMGGをデプロイして、見当たらないサンプルを処理することができます。
ImageNet-C, R, Sketch, A で得られた結果から,本手法は現在の最先端手法よりも少ない更新率,少ないデータ,そして大幅に短い適応イテレーションで上回っていることが示唆された。
従来のSOTA法と比較すると,ImageNet-Cの精度は7.4%向上し,適応速度は4.2倍向上した。
関連論文リスト
- Improving Instance Optimization in Deformable Image Registration with Gradient Projection [7.6061804149819885]
変形可能な画像登録は本質的に多目的最適化問題である。
これらの矛盾する目的は、しばしば最適化結果の貧弱につながる。
ディープラーニングの手法は、大規模なデータセット処理の効率化により、最近この領域で人気を博している。
論文 参考訳(メタデータ) (2024-10-21T08:27:13Z) - Incorporating Test-Time Optimization into Training with Dual Networks for Human Mesh Recovery [35.138312681232264]
本稿では,トレーニングタイムとテストタイムの目標を統一するデュアルネットワークアーキテクチャを提案する。
メタラーニングと双対ネットワークを併用した手法は、最先端の回帰ベースおよび最適化ベースのHMRアプローチより優れている。
論文 参考訳(メタデータ) (2024-01-25T12:04:53Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Faster Optimization-Based Meta-Learning Adaptation Phase [0.0]
適応フェーズ中にネットワーク内で更新される重量を制限するLambdaパターンを導入する。
実験の結果, 以下の領域でMAML法を大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2022-06-13T06:57:17Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。