Fugu-MT 論文翻訳(概要): Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning

論文の概要: Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning

arxiv url: http://arxiv.org/abs/2301.07067v1
Date: Tue, 17 Jan 2023 18:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 13:26:32.353360
Title: Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning
Title（参考訳）: アルゴリズムとしてのトランスフォーマー:インコンテキスト学習における一般化と帰納モデル選択
Authors: Yingcong Li, M. Emrullah Ildiz, Dimitris Papailiopoulos, Samet Oymak
Abstract要約: In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
参考スコア（独自算出の注目度）: 23.677503557659705
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) is a type of prompting where a transformer model operates on a sequence of (input, output) examples and performs inference on-the-fly. This implicit training is in contrast to explicitly tuning the model weights based on examples. In this work, we formalize in-context learning as an algorithm learning problem, treating the transformer model as a learning algorithm that can be specialized via training to implement-at inference-time-another target algorithm. We first explore the statistical aspects of this abstraction through the lens of multitask learning: We obtain generalization bounds for ICL when the input prompt is (1) a sequence of i.i.d. (input, label) pairs or (2) a trajectory arising from a dynamical system. The crux of our analysis is relating the excess risk to the stability of the algorithm implemented by the transformer, which holds under mild assumptions. Secondly, we use our abstraction to show that transformers can act as an adaptive learning algorithm and perform model selection across different hypothesis classes. We provide numerical evaluations that (1) demonstrate transformers can indeed implement near-optimal algorithms on classical regression problems with i.i.d. and dynamic data, (2) identify an inductive bias phenomenon where the transfer risk on unseen tasks is independent of the transformer complexity, and (3) empirically verify our theoretical predictions.
Abstract（参考訳）: In-context Learning(ICL)は、トランスフォーマーモデルが(入力、出力)例のシーケンスで動作し、オンザフライで推論を行うプロンプトの一種である。この暗黙的なトレーニングは、例に基づいてモデル重みを明示的にチューニングすることとは対照的である。そこで本研究では,トランスフォーマーモデルを学習アルゴリズムとして扱い,他の対象アルゴリズムの実装・実行を訓練することで,文脈内学習をアルゴリズム学習問題として定式化する。入力プロンプトが(1)i.i.d.(入力、ラベル)ペアの列である場合、または(2)力学系から生じる軌道である場合、iclの一般化境界を得る。我々の分析の要点は、過大なリスクをトランスフォーマーによって実装されたアルゴリズムの安定性に関連付けている。第二に、変換器が適応学習アルゴリズムとして機能し、異なる仮説クラスにまたがるモデル選択を行うことができることを示すために、この抽象化を用いる。本研究は,(1)トランスフォーマが古典的回帰問題に対して,動的データとi.i.d.を用いて近似最適アルゴリズムを実際に実装できること,(2)非知覚タスクにおける伝達リスクがトランスフォーマ複雑性とは無関係な帰納バイアス現象を特定すること,(3)理論的予測を実証的に検証できることを数値的に評価する。

関連論文リスト

Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文参考訳（メタデータ） (2025-04-17T13:05:33Z)
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文参考訳（メタデータ） (2024-11-18T10:58:46Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making [7.8816327398541635]
逐次的意思決定問題に対する教師付き事前学習型変換器について検討する。このような構造は、事前学習フェーズにおける最適なアクション/決定の使用を可能にする。
論文参考訳（メタデータ） (2024-05-23T06:28:44Z)
Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文参考訳（メタデータ） (2023-11-07T21:27:17Z)
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。 ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文参考訳（メタデータ） (2023-10-12T17:55:02Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文参考訳（メタデータ） (2023-10-04T17:57:33Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。