Fugu-MT 論文翻訳(概要): Can Transformers Learn Sequential Function Classes In Context?

論文の概要: Can Transformers Learn Sequential Function Classes In Context?

arxiv url: http://arxiv.org/abs/2312.12655v2
Date: Thu, 21 Dec 2023 04:29:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 17:38:43.004961
Title: Can Transformers Learn Sequential Function Classes In Context?
Title（参考訳）: トランスフォーマーは文脈で逐次関数クラスを学習できるか?
Authors: Ryan Campbell, Emma Guo, Evan Hu, Reya Vir, Ethan Hsiao
Abstract要約: インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) has revolutionized the capabilities of transformer models in NLP. In our project, we extend the understanding of the mechanisms underpinning ICL by exploring whether transformers can learn from sequential, non-textual function class data distributions. We introduce a novel sliding window sequential function class and employ toy-sized transformers with a GPT-2 architecture to conduct our experiments. Our analysis indicates that these models can indeed leverage ICL when trained on non-textual sequential function classes. Additionally, our experiments with randomized y-label sequences highlights that transformers retain some ICL capabilities even when the label associations are obfuscated. We provide evidence that transformers can reason with and understand sequentiality encoded within function classes, as reflected by the effective learning of our proposed tasks. Our results also show that the performance deteriorated with increasing randomness in the labels, though not to the extent one might expect, implying a potential robustness of learned sequentiality against label noise. Future research may want to look into how previous explanations of transformers, such as induction heads and task vectors, relate to sequentiality in ICL in these toy examples. Our investigation lays the groundwork for further research into how transformers process and perceive sequential data.
Abstract（参考訳）: インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。本プロジェクトでは,インバータが逐次的,非テクスチュアルな関数クラスデータ分布から学習できるかどうかを調べることで,ICLを支えるメカニズムの理解を深める。我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。さらに,yラベル列のランダム化実験では,ラベル関連が難読化されてもトランスフォーマーが何らかのicl機能を保っていることを強調する。提案するタスクの効果的な学習に反映されるように,トランスフォーマが関数クラス内でエンコードされた逐次性を推論し理解できることの証拠を提供する。また,ラベルの無作為性が増大するにつれて,ラベルノイズに対して学習した逐次性が潜在的に頑健になる可能性が示唆された。将来の研究は、誘導ヘッドやタスクベクトルといったトランスフォーマーの以前の説明が、これらのトイ例におけるiclの逐次性にどのように関係しているかを考察したいかもしれない。我々の調査は、トランスフォーマーがどのようにシーケンシャルデータを処理し知覚するかに関するさらなる研究の土台となるものです。

関連論文リスト

Transformer Learns Optimal Variable Selection in Group-Sparse Classification [14.760685658938787]
群疎性」を持つ古典的統計モデルを学ぶためにトランスフォーマーをどのように訓練するかのケーススタディを提示する。理論的には、勾配降下により訓練された一層変圧器は、注意機構を正確に利用して変数を選択することができる。また, 予測精度を向上させるために, サンプル数に制限のある1層変圧器を新しい下流タスクに適用できることを実証した。
論文参考訳（メタデータ） (2025-04-11T15:39:44Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文参考訳（メタデータ） (2024-10-11T10:54:09Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Analyzing Transformer Dynamics as Movement through Embedding Space [0.0]
本稿では,トランスフォーマーをベースとした言語モデルが,自然言語理解などの知的行動を示す方法について考察する。埋め込み空間を通した動きとしてフレーミングトランスフォーマーダイナミクスを提案する。
論文参考訳（メタデータ） (2023-08-21T17:21:23Z)
In-Context Learning through the Bayesian Prism [16.058624485018207]
In-context Learning (ICL) は、大きな言語モデルの驚くべき特徴の1つである。本稿では,このベイズ的視点がICLの理解にどの程度役立つのかを実証的に検討する。
論文参考訳（メタデータ） (2023-06-08T02:38:23Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。