論文の概要: Probing In-Context Learning: Impact of Task Complexity and Model Architecture on Generalization and Efficiency
- arxiv url: http://arxiv.org/abs/2505.06475v1
- Date: Sat, 10 May 2025 00:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.857656
- Title: Probing In-Context Learning: Impact of Task Complexity and Model Architecture on Generalization and Efficiency
- Title(参考訳): 文脈内学習の提案:タスク複雑度とモデルアーキテクチャが一般化と効率に及ぼす影響
- Authors: Binwen Liu, Peiyu Xu, Quan Yuan, Yihong Chen,
- Abstract要約: タスクの複雑さとモデルアーキテクチャを体系的に変化させる、巧妙な実験フレームワークを用いて、文脈内学習(ICL)について検討する。
GPT2スタイルのトランスフォーマー、FlashAttention機構を備えたトランスフォーマー、畳み込みハイエナモデル、Mamba状態空間モデルという4つの異なるモデルを評価した。
- 参考スコア(独自算出の注目度): 10.942999793311765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate in-context learning (ICL) through a meticulous experimental framework that systematically varies task complexity and model architecture. Extending beyond the linear regression baseline, we introduce Gaussian kernel regression and nonlinear dynamical system tasks, which emphasize temporal and recursive reasoning. We evaluate four distinct models: a GPT2-style Transformer, a Transformer with FlashAttention mechanism, a convolutional Hyena-based model, and the Mamba state-space model. Each model is trained from scratch on synthetic datasets and assessed for generalization during testing. Our findings highlight that model architecture significantly shapes ICL performance. The standard Transformer demonstrates robust performance across diverse tasks, while Mamba excels in temporally structured dynamics. Hyena effectively captures long-range dependencies but shows higher variance early in training, and FlashAttention offers computational efficiency but is more sensitive in low-data regimes. Further analysis uncovers locality-induced shortcuts in Gaussian kernel tasks, enhanced nonlinear separability through input range scaling, and the critical role of curriculum learning in mastering high-dimensional tasks.
- Abstract(参考訳): タスクの複雑さとモデルアーキテクチャを体系的に変化させる、巧妙な実験フレームワークを用いて、文脈内学習(ICL)について検討する。
線形回帰ベースラインを超えて、時間的および再帰的推論を強調するガウス的カーネル回帰および非線形力学系タスクを導入する。
GPT2スタイルのトランスフォーマー、FlashAttention機構を備えたトランスフォーマー、畳み込みハイエナモデル、Mamba状態空間モデルという4つの異なるモデルを評価した。
各モデルは、合成データセットのスクラッチからトレーニングされ、テスト中の一般化のために評価される。
この結果から,モデルアーキテクチャはICLの性能を著しく向上させることがわかった。
標準のTransformerは多様なタスク間で堅牢なパフォーマンスを示し、Mambaは時間的に構造化されたダイナミクスに優れています。
Hyenaは、効果的に長距離依存関係をキャプチャするが、トレーニングの早い段階ではより分散度が高く、FlashAttentionは計算効率を提供するが、低データのレシエーションではより敏感である。
さらに解析により,ガウスカーネルタスクの局所性によるショートカット,入力範囲のスケーリングによる非線形分離性の向上,高次元タスクの習得におけるカリキュラム学習の重要性が明らかになった。
関連論文リスト
- Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Self-Supervised Learning with Generative Adversarial Networks for Electron Microscopy [0.0]
本稿では,自己教師付き事前学習が,下流タスクの高精度な微調整をいかに促進するかを示す。
我々は、電子顕微鏡の文脈において、下流の様々なタスクにまたがる自己教師型事前学習の汎用性を実証する。
論文 参考訳(メタデータ) (2024-02-28T12:25:01Z) - Engineered Ordinary Differential Equations as Classification Algorithm (EODECA): thorough characterization and testing [0.9786690381850358]
本稿では,機械学習と動的システム理論の交叉における新しいアプローチであるEODECAを提案する。
EODECAの設計には、安定したアトラクタをフェーズ空間に埋め込む機能が含まれており、信頼性を高め、可逆的なダイナミクスを可能にする。
我々は,MNISTデータセットとFashion MNISTデータセットに対するEODECAの有効性を実証し,それぞれ98.06%,88.21%の精度を達成した。
論文 参考訳(メタデータ) (2023-12-22T13:34:18Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。