論文の概要: Polynomial Regression as a Task for Understanding In-context Learning Through Finetuning and Alignment
- arxiv url: http://arxiv.org/abs/2407.19346v1
- Date: Sat, 27 Jul 2024 22:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:41:57.637227
- Title: Polynomial Regression as a Task for Understanding In-context Learning Through Finetuning and Alignment
- Title(参考訳): ファインタニングとアライメントによるインコンテクスト学習の課題としての多項回帰
- Authors: Max Wilcoxson, Morten Svendgård, Ria Doshi, Dylan Davis, Reya Vir, Anant Sahai,
- Abstract要約: 単純な関数クラスは、大きな言語モデルに使用されるトランスフォーマーベースのアーキテクチャにおいて、コンテキスト学習をよりよく理解するために、おもちゃの問題として現れてきた。
我々は、プロンプトとアライメントを研究するのに十分なだけのリッチな関数クラスとしてユニレグレッションを提案する。
- 参考スコア(独自算出の注目度): 2.9068501652263024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simple function classes have emerged as toy problems to better understand in-context-learning in transformer-based architectures used for large language models. But previously proposed simple function classes like linear regression or multi-layer-perceptrons lack the structure required to explore things like prompting and alignment within models capable of in-context-learning. We propose univariate polynomial regression as a function class that is just rich enough to study prompting and alignment, while allowing us to visualize and understand what is going on clearly.
- Abstract(参考訳): 単純な関数クラスは、大きな言語モデルに使用されるトランスフォーマーベースのアーキテクチャにおいて、コンテキスト学習をよりよく理解するために、おもちゃの問題として現れてきた。
しかし、以前提案された線形回帰や多層パーセプトロンのような単純な関数クラスは、コンテキスト内学習が可能なモデル内でのプロンプトやアライメントのようなことを探索するために必要な構造を欠いている。
本稿では,一変量多項式回帰をプロンプトとアライメントを研究するのに十分なほどにリッチな関数クラスとして提案する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Understanding Visual Feature Reliance through the Lens of Complexity [14.282243225622093]
我々は$mathscrV$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。
我々は、標準画像ネット学習視覚モデルから抽出した1万個の特徴の複雑さを、垂直層内の方向として表現する。
論文 参考訳(メタデータ) (2024-07-08T16:21:53Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Provable Meta-Learning of Linear Representations [114.656572506859]
我々は、複数の関連するタスクから共通の機能の集合を学習し、その知識を新しい未知のタスクに転送する、という2つの課題に対処する、高速でサンプル効率のアルゴリズムを提供する。
また、これらの線形特徴を学習する際のサンプルの複雑さに関する情報理論の下限も提供する。
論文 参考訳(メタデータ) (2020-02-26T18:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。