論文の概要: HyperFlow: Gradient-Free Emulation of Few-Shot Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.15323v1
- Date: Mon, 21 Apr 2025 03:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:13:05.995383
- Title: HyperFlow: Gradient-Free Emulation of Few-Shot Fine-Tuning
- Title(参考訳): HyperFlow:Few-Shotファインチューニングのグラディエントフリーエミュレーション
- Authors: Donggyun Kim, Chanwoo Kim, Seunghoon Hong,
- Abstract要約: 計算勾配を使わずに勾配降下をエミュレートし,効率的なテスト時間適応を実現する手法を提案する。
具体的には、通常の微分方程式(ODE)のオイラー離散化として勾配降下を定式化し、タスク条件ドリフトを予測するために補助ネットワークを訓練する。
適応は単純な数値積分に還元され、補助ネットワークのわずかな前方通過しか必要としない。
- 参考スコア(独自算出の注目度): 20.308785668386424
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While test-time fine-tuning is beneficial in few-shot learning, the need for multiple backpropagation steps can be prohibitively expensive in real-time or low-resource scenarios. To address this limitation, we propose an approach that emulates gradient descent without computing gradients, enabling efficient test-time adaptation. Specifically, we formulate gradient descent as an Euler discretization of an ordinary differential equation (ODE) and train an auxiliary network to predict the task-conditional drift using only the few-shot support set. The adaptation then reduces to a simple numerical integration (e.g., via the Euler method), which requires only a few forward passes of the auxiliary network -- no gradients or forward passes of the target model are needed. In experiments on cross-domain few-shot classification using the Meta-Dataset and CDFSL benchmarks, our method significantly improves out-of-domain performance over the non-fine-tuned baseline while incurring only 6\% of the memory cost and 0.02\% of the computation time of standard fine-tuning, thus establishing a practical middle ground between direct transfer and fully fine-tuned approaches.
- Abstract(参考訳): テスト時の微調整は、数ショットの学習では有益であるが、リアルタイムまたは低リソースのシナリオでは、複数のバックプロパゲーションステップの必要性は禁じられる。
この制限に対処するために,勾配を計算せずに勾配勾配をエミュレートし,効率的なテスト時間適応を実現する手法を提案する。
具体的には、正規微分方程式(ODE)のオイラー離散化として勾配降下を定式化し、補助ネットワークを訓練し、少数ショット支持セットのみを用いてタスク条件ドリフトを予測する。
その後、適応は単純な数値積分(例えばオイラー法)に還元され、補助的なネットワークのわずかな前方通過しか必要とせず、対象モデルの勾配や前方通過は不要である。
Meta-Dataset と CDFSL ベンチマークを用いたクロスドメイン・ショット分類実験では、メモリコストの 6 % と標準微調整の 0.02 % しか発生せず、非微調整ベースラインでのドメイン外性能を著しく向上させ、直接転送と完全微調整アプローチの実践的な中間点を確立する。
関連論文リスト
- Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize [24.464140786923476]
後続近似により、ディリクレプロセスの混合のような非パラメトリックは、分数的なコストでより大きなデータセットにスケールアップできる。
勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。
本研究では,ディリクレプロセス混合物の後部近似のための高速アルゴリズムとして勾配上昇法について検討する。
論文 参考訳(メタデータ) (2024-12-12T05:33:23Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Self-Tuning Hamiltonian Monte Carlo for Accelerated Sampling [12.163119957680802]
ハミルトニアンモンテカルロシミュレーションは、積分の時間ステップと積分の回数に大きく依存する。
このようなパラメータを自動的に調整する適応型汎用フレームワークを提案する。
損失と自己相関時間との良好な対応が確立できることを示す。
論文 参考訳(メタデータ) (2023-09-24T09:35:25Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。