論文の概要: Control Theoretic Approach to Fine-Tuning and Transfer Learning
- arxiv url: http://arxiv.org/abs/2404.11013v2
- Date: Sun, 19 May 2024 23:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:31:13.228336
- Title: Control Theoretic Approach to Fine-Tuning and Transfer Learning
- Title(参考訳): 微調整・伝達学習における制御理論的アプローチ
- Authors: Erkan Bayram, Shenyu Liu, Mohamed-Ali Belabbas, Tamer Başar,
- Abstract要約: トレーニングセットが拡張されたとき、制御をu*$に調整する反復アルゴリズムを開発する。
私たちのメソッドの更新毎に、制御$u*$がエンドポイントマッピングのカーネルに投影されます。
追加サンプルを反復的に学習しながら、事前に学習したサンプルのエンドポイントを一定に保つ。
- 参考スコア(独自算出の注目度): 0.6749750044497732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a training set in the form of a paired $(\mathcal{X},\mathcal{Y})$, we say that the control system $\dot x = f(x,u)$ has learned the paired set via the control $u^*$ if the system steers each point of $\mathcal{X}$ to its corresponding target in $\mathcal{Y}$. If the training set is expanded, most existing methods for finding a new control $u^*$ require starting from scratch, resulting in a quadratic increase in complexity with the number of points. To overcome this limitation, we introduce the concept of $\textit{ tuning without forgetting}$. We develop $\textit{an iterative algorithm}$ to tune the control $u^*$ when the training set expands, whereby points already in the paired set are still matched, and new training samples are learned. At each update of our method, the control $u^*$ is projected onto the kernel of the end-point mapping generated by the controlled dynamics at the learned samples. It ensures keeping the end-points for the previously learned samples constant while iteratively learning additional samples.
- Abstract(参考訳): ペア化された $(\mathcal{X},\mathcal{Y})$ の形式のトレーニングセットが与えられたとき、制御系 $\dot x = f(x,u)$ は、制御系 $u^*$ を通じてペア化された集合を学んだ。
トレーニングセットが拡張された場合、新しい制御の$u^*$を見つけるには、スクラッチから開始する必要がある。
この制限を克服するために、$\textit{ tuning without forgetting}$という概念を導入します。
トレーニングセットが拡大すると、制御をu^*$に調整するために$\textit{an iterative algorithm}$を開発し、ペアセットにすでにある点が一致し、新しいトレーニングサンプルが学習される。
提案手法の更新毎に,学習したサンプルの制御ダイナミクスによって生成されたエンドポイントマッピングのカーネルに$u^*$の制御を投影する。
追加サンプルを反復的に学習しながら、事前に学習したサンプルのエンドポイントを一定に保つ。
関連論文リスト
- Revisiting Agnostic PAC Learning [30.67561230812141]
PAC学習は、Valiant'84とVapnik and Chervonenkis'64,'74にさかのぼる、教師あり学習を研究するための古典的なモデルである。
経験的リスク最小化(英: Empirical Risk Minimization、ERM)は、訓練データに最も少ない誤りを犯すために$mathcalH$から仮説を出力する自然学習アルゴリズムである。
私たちはPAC学習を再考し、最良仮説の性能を$tau:=Pr_mathcalD[hstar_mathと表すと、ERMが実際は準最適であることを示す。
論文 参考訳(メタデータ) (2024-07-29T08:20:49Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing [8.723136784230906]
本稿では、中央プランナーがデータセットにアクセス可能なフェデレーショントランスファー学習のための最適反復スキームを提案する。
我々の目標は、生成されたパラメータの累積偏差を$thetai(t)_t=0T$で最小化することである。
後悔と最適化のアルゴリズム内で対称性を活用することで, $mathcalO(Np2)$少なめの初等演算を伴って動作する,ほぼ後悔のいく$_optimalを開発する。
論文 参考訳(メタデータ) (2023-09-08T19:17:03Z) - Most Neural Networks Are Almost Learnable [52.40331776572531]
固定された$epsilon>0$とdeep $i$に対して、深さ$i$のランダムなXavierネットワークを学習するポリ時間アルゴリズムが存在することを示す。
このアルゴリズムは時間とサンプルの複雑さが$(bard)mathrmpoly(epsilon-1)$であり、$bar d$はネットワークのサイズである。
シグモイドやReLU様の活性化の場合、境界は$(bard)mathrmpolylog(eps)に改善できる。
論文 参考訳(メタデータ) (2023-05-25T22:27:42Z) - Tight Bounds on the Hardness of Learning Simple Nonparametric Mixtures [9.053430799456587]
有限混合系における非パラメトリック分布の学習問題について検討する。
このようなモデルにおける成分分布を学習するために、サンプルの複雑さに厳密な境界を定めている。
論文 参考訳(メタデータ) (2022-03-28T23:53:48Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。