論文の概要: Few-Shot Learning via Learning the Representation, Provably
- arxiv url: http://arxiv.org/abs/2002.09434v2
- Date: Tue, 30 Mar 2021 04:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 01:11:48.554231
- Title: Few-Shot Learning via Learning the Representation, Provably
- Title(参考訳): 表現を学習し, 証明可能な, 数少ない学習
- Authors: Simon S. Du, Wei Hu, Sham M. Kakade, Jason D. Lee, Qi Lei
- Abstract要約: 本稿では,表現学習による少数ショット学習について検討する。
- 参考スコア(独自算出の注目度): 115.7367053639605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies few-shot learning via representation learning, where one
uses $T$ source tasks with $n_1$ data per task to learn a representation in
order to reduce the sample complexity of a target task for which there is only
$n_2 (\ll n_1)$ data. Specifically, we focus on the setting where there exists
a good \emph{common representation} between source and target, and our goal is
to understand how much of a sample size reduction is possible. First, we study
the setting where this common representation is low-dimensional and provide a
fast rate of $O\left(\frac{\mathcal{C}\left(\Phi\right)}{n_1T} +
\frac{k}{n_2}\right)$; here, $\Phi$ is the representation function class,
$\mathcal{C}\left(\Phi\right)$ is its complexity measure, and $k$ is the
dimension of the representation. When specialized to linear representation
functions, this rate becomes $O\left(\frac{dk}{n_1T} + \frac{k}{n_2}\right)$
where $d (\gg k)$ is the ambient input dimension, which is a substantial
improvement over the rate without using representation learning, i.e. over the
rate of $O\left(\frac{d}{n_2}\right)$. This result bypasses the
$\Omega(\frac{1}{T})$ barrier under the i.i.d. task assumption, and can capture
the desired property that all $n_1T$ samples from source tasks can be
\emph{pooled} together for representation learning. Next, we consider the
setting where the common representation may be high-dimensional but is
capacity-constrained (say in norm); here, we again demonstrate the advantage of
representation learning in both high-dimensional linear regression and neural
network learning. Our results demonstrate representation learning can fully
utilize all $n_1T$ samples from source tasks.
- Abstract(参考訳): 本稿では,1タスクあたり$n_1$のデータを持つ$t$ソースタスクを使用して表現を学習し,$n_2 (\ll n_1)$データしか存在しない対象タスクのサンプル複雑性を低減する,表現学習による少数ショット学習について検討する。
具体的には、ソースとターゲットの間に良い \emph{common representation} が存在するような設定に焦点を合わせ、サンプルサイズの削減がどの程度可能かを理解することを目的とする。
まず、この共通表現が低次元であるような設定を研究し、より速いレートで $o\left(\frac{\mathcal{c}\left(\phi\right)}{n_1t} + \frac{k}{n_2}\right)$; ここで、$\phi$ は表現関数クラス、$\mathcal{c}\left(\phi\right)$ はその複雑性測度であり、$k$ はその表現の次元である。
線型表現関数に特化すると、このレートは$O\left(\frac{dk}{n_1T} + \frac{k}{n_2}\right)$となる。
この結果は、i.d.タスクの仮定の下で$\Omega(\frac{1}{T})$バリアをバイパスし、ソースタスクからのすべての$n_1T$サンプルが、表現学習のために一緒に \emph{pooled} とすることができる。
- Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [45.05072391903122]
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff [12.351756386062291]
興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。
論文 参考訳(メタデータ) (2023-05-30T13:06:26Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z)