論文の概要: Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers
- arxiv url: http://arxiv.org/abs/2505.09855v1
- Date: Wed, 14 May 2025 23:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.136734
- Title: Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers
- Title(参考訳): 予測可能性形状の適応:トランスフォーマーにおける学習様式の進化的視点
- Authors: Alexander Y. Ku, Thomas L. Griffiths, Stephanie C. Y. Chan,
- Abstract要約: トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
- 参考スコア(独自算出の注目度): 51.992454203752686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models learn in two distinct modes: in-weights learning (IWL), encoding knowledge into model weights, and in-context learning (ICL), adapting flexibly to context without weight modification. To better understand the interplay between these learning modes, we draw inspiration from evolutionary biology's analogous adaptive strategies: genetic encoding (akin to IWL, adapting over generations and fixed within an individual's lifetime) and phenotypic plasticity (akin to ICL, enabling flexible behavioral responses to environmental cues). In evolutionary biology, environmental predictability dictates the balance between these strategies: stability favors genetic encoding, while reliable predictive cues promote phenotypic plasticity. We experimentally operationalize these dimensions of predictability and systematically investigate their influence on the ICL/IWL balance in Transformers. Using regression and classification tasks, we show that high environmental stability decisively favors IWL, as predicted, with a sharp transition at maximal stability. Conversely, high cue reliability enhances ICL efficacy, particularly when stability is low. Furthermore, learning dynamics reveal task-contingent temporal evolution: while a canonical ICL-to-IWL shift occurs in some settings (e.g., classification with many classes), we demonstrate that scenarios with easier IWL (e.g., fewer classes) or slower ICL acquisition (e.g., regression) can exhibit an initial IWL phase later yielding to ICL dominance. These findings support a relative-cost hypothesis for explaining these learning mode transitions, establishing predictability as a critical factor governing adaptive strategies in Transformers, and offering novel insights for understanding ICL and guiding training methodologies.
- Abstract(参考訳): トランスフォーマーモデルは、インウェイト学習(IWL)、知識をモデルウェイトにエンコードする、インコンテクスト学習(ICL)の2つの異なるモードで学習する。
これらの学習モード間の相互作用をよりよく理解するために、進化生物学の類似した適応戦略である遺伝的エンコーディング(IWL、世代に適応し、個人の寿命内に固定される)と表現型可塑性(ICL、環境条件に対する柔軟な行動応答を可能にする)からインスピレーションを得ている。
進化生物学において、環境予測可能性(英語版)はこれらの戦略のバランスを規定する:安定性は遺伝的エンコーディングを好んでおり、信頼性の高い予測手段は表現型可塑性を促進する。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響を体系的に調査する。
回帰および分類タスクを用いて、高い環境安定性は予測通りIWLを決定的に好んでおり、最大安定性で急激な遷移を示す。
逆に、高いキュー信頼性は、特に安定性が低い場合、ICLの有効性を高める。
さらに、学習ダイナミクスはタスク内容の時間的進化を示す: 標準的なICL-to-IWLシフトは、いくつかの設定(例えば、多くのクラスによる分類)で発生するが、より簡単なIWL(例えば、より少ないクラス)や遅いICL獲得(例えば、回帰)のシナリオは、ICL支配に先立つ初期IWLフェーズを示す。
これらの結果は、これらの学習モード遷移を説明するための相対コスト仮説を支持し、トランスフォーマーの適応戦略を規定する重要な要因として予測可能性を確立し、ICLの理解と指導方法に関する新たな洞察を提供する。
関連論文リスト
- Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Strategy Coopetition Explains the Emergence and Transience of In-Context Learning [24.63934469340368]
インコンテキスト学習(ICL)は、トランスフォーマーモデルに現れる強力な能力であり、重み更新なしでコンテキストから学習することができる。
最近の研究は、長時間のトレーニング後に消失することがある過渡現象として緊急ICLを確立している。
本稿では、これらの重要な力学と相互作用を再現する最小限の数学的モデルを提案する。
論文 参考訳(メタデータ) (2025-03-07T17:54:05Z) - Contrastive Learning Via Equivariant Representation [19.112460889771423]
CLeVERは,任意の複雑性の増大戦略に適合する,新しい異種コントラスト学習フレームワークである。
実験結果から,CLeVERは実用自然画像から同変情報を効果的に抽出し,組み込んだ。
論文 参考訳(メタデータ) (2024-06-01T01:53:51Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。