Fugu-MT 論文翻訳(概要): Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks

論文の概要: Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks

arxiv url: http://arxiv.org/abs/2406.02550v2
Date: Mon, 04 Nov 2024 16:04:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.268823
Title: Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks
Title（参考訳）: グラクの学習:モジュラー算術課題における文脈内学習とスキル構成の創発
Authors: Tianyu He, Darshil Doshi, Aritra Das, Andrey Gromov,
Abstract要約: モジュール型算術タスクの集合における文脈内学習とスキル構成の出現について検討する。具体的には、線型モジュラ函数の有限集合 $z = a, x + b, y ;mathrmmod; p$ を mathbbZ_p2$ のベクトル $(a, b) でラベル付けする。
参考スコア（独自算出の注目度）: 5.358878931933351
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models can solve tasks that were not present in the training set. This capability is believed to be due to in-context learning and skill composition. In this work, we study the emergence of in-context learning and skill composition in a collection of modular arithmetic tasks. Specifically, we consider a finite collection of linear modular functions $z = a \, x + b \, y \;\mathrm{mod}\; p$ labeled by the vector $(a, b) \in \mathbb{Z}_p^2$. We use some of these tasks for pre-training and the rest for out-of-distribution testing. We empirically show that a GPT-style transformer exhibits a transition from in-distribution to out-of-distribution generalization as the number of pre-training tasks increases. We find that the smallest model capable of out-of-distribution generalization requires two transformer blocks, while for deeper models, the out-of-distribution generalization phase is \emph{transient}, necessitating early stopping. Finally, we perform an interpretability study of the pre-trained models, revealing highly structured representations in both attention heads and MLPs; and discuss the learned algorithms. Notably, we find an algorithmic shift in deeper models, as we go from few to many in-context examples.
Abstract（参考訳）: 大規模な言語モデルは、トレーニングセットに存在しないタスクを解決できる。この能力は、文脈内学習とスキル構成によるものと考えられている。本研究では,モジュール型算術タスクの集合における文脈内学習とスキル構成の出現について検討する。具体的には、線型モジュラ函数の有限集合 $z = a \, x + b \, y \;\mathrm{mod}\; p$ をベクトル $(a, b) \in \mathbb{Z}_p^2$ でラベル付けする。これらのタスクのいくつかは事前トレーニングに使用し、残りはアウト・オブ・ディストリビューションテストに使用しています。我々は,GPT方式のトランスフォーマーが,事前学習タスクの数が増加するにつれて,分布内から分布外への遷移を示すことを実証的に示す。分布外一般化が可能な最小のモデルは2つの変圧器ブロックを必要とするのに対し、より深いモデルでは分布外一般化フェーズは \emph{transient} であり、早期停止を必要とする。最後に、事前学習されたモデルに対する解釈可能性の研究を行い、注目ヘッドとMLPの両方に高度に構造化された表現を明らかにし、学習アルゴリズムについて議論する。特に、より深いモデルのアルゴリズム的なシフトが見られます。

関連論文リスト

Task Addition and Weight Disentanglement in Closed-Vocabulary Models [75.01322212415435]
タスク算術は、事前学習されたテキストオープン語彙モデルを編集するための有望な方法として登場した。本稿では,クローズドボキャブラリ画像分類モデルにおけるタスク追加について検討する。事前学習された視覚変換器もタスク演算で編集できることがわかった。
論文参考訳（メタデータ） (2025-11-18T15:12:21Z)
Learning Pseudorandom Numbers with Transformers: Permuted Congruential Generators, Curricula, and Interpretability [10.75037955193936]
変圧器モデルによる変圧器発電機(PCG)のシーケンス学習能力について検討する。 PCGは、一連のビットワイズシフト、XOR、回転、切り離しを隠された状態に適用することで、線形合同発生器(LCG)に対してかなりの困難をもたらす。いずれにせよ,トランスフォーマーは多様なPCG変種からの未知のシーケンスに対して,コンテクスト内での予測を成功させることができることを示す。
論文参考訳（メタデータ） (2025-10-30T17:59:09Z)
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文参考訳（メタデータ） (2025-09-30T19:03:26Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
(How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。トランスフォーマーは、未知のmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。また、Transformerは、$m_texttest = 216$まで、unseen moduliに一般化できることを示す。
論文参考訳（メタデータ） (2025-02-14T18:59:40Z)
Structure Development in List-Sorting Transformers [0.0]
本研究では,一層アテンションのみの変換器が,数列のソートを学習しながら,関連する構造をどのように発達させるかを検討する。トレーニングの終わりに、モデルは注意を2つのモードで整理し、語彙分割と複写圧縮と呼ぶ。
論文参考訳（メタデータ） (2025-01-30T15:56:25Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文参考訳（メタデータ） (2024-05-24T00:08:55Z)
Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文参考訳（メタデータ） (2024-02-08T16:23:29Z)
In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか? GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文参考訳（メタデータ） (2023-11-13T23:52:43Z)
A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文参考訳（メタデータ） (2023-05-26T07:47:21Z)
Generalization on the Unseen, Logic Reasoning and Degree Curriculum [25.7378861650474]
本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
論文参考訳（メタデータ） (2023-01-30T17:44:05Z)
Categorical semantics of compositional reinforcement learning [25.752647944862183]
強化学習(RL)はしばしば、問題をサブタスクに分解し、これらのタスクで学習した振る舞いを構成する必要がある。分類的視点を用いたRLの補間理論の枠組みを開発する。 mathsfMDP$は特定の繊維製品やプッシュアウトなどの自然な構成操作を許容することを示す。
論文参考訳（メタデータ） (2022-08-29T15:51:36Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)
Neural Bayes: A Generic Parameterization Method for Unsupervised Representation Learning [175.34232468746245]
本稿ではニューラルベイズと呼ばれるパラメータ化手法を提案する。これは一般に計算が難しい統計量の計算を可能にする。このパラメータ化のための2つの独立したユースケースを示す。
論文参考訳（メタデータ） (2020-02-20T22:28:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。