Fugu-MT 論文翻訳(概要): State-space models can learn in-context by gradient descent

論文の概要: State-space models can learn in-context by gradient descent

arxiv url: http://arxiv.org/abs/2410.11687v1
Date: Tue, 15 Oct 2024 15:22:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.853108
Title: State-space models can learn in-context by gradient descent
Title（参考訳）: 状態空間モデルは勾配降下により文脈内で学習できる
Authors: Neeraj Mohan Sushma, Yudou Tian, Harshvardhan Mestha, Nicolo Colombo, David Kappel, Anand Subramoney,
Abstract要約: 本研究では、状態空間モデルアーキテクチャが勾配に基づく学習を実行し、文脈内学習に使用できることを実証する。局所自己アテンションを付加した単一構造状態空間モデル層が暗黙線形モデルの出力を再現できることを実証する。理論的構成は、基礎モデルの典型的な表現力を実現するための鍵となる要素として、繰り返しアーキテクチャにおける局所的な自己注意と乗法的相互作用の役割を解明する。
参考スコア（独自算出の注目度）: 1.3087858009942543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep state-space models (Deep SSMs) have shown capabilities for in-context learning on autoregressive tasks, similar to transformers. However, the architectural requirements and mechanisms enabling this in recurrent networks remain unclear. This study demonstrates that state-space model architectures can perform gradient-based learning and use it for in-context learning. We prove that a single structured state-space model layer, augmented with local self-attention, can reproduce the outputs of an implicit linear model with least squares loss after one step of gradient descent. Our key insight is that the diagonal linear recurrent layer can act as a gradient accumulator, which can be `applied' to the parameters of the implicit regression model. We validate our construction by training randomly initialized augmented SSMs on simple linear regression tasks. The empirically optimized parameters match the theoretical ones, obtained analytically from the implicit model construction. Extensions to multi-step linear and non-linear regression yield consistent results. The constructed SSM encompasses features of modern deep state-space models, with the potential for scalable training and effectiveness even in general tasks. The theoretical construction elucidates the role of local self-attention and multiplicative interactions in recurrent architectures as the key ingredients for enabling the expressive power typical of foundation models.
Abstract（参考訳）: ディープステートスペースモデル(ディープSSM)は、トランスフォーマーと同様、自動回帰タスクでコンテキスト内学習を行う能力を示している。しかし、これを実現するアーキテクチャ要件とメカニズムは、まだ不明である。本研究では、状態空間モデルアーキテクチャが勾配に基づく学習を実行し、文脈内学習に使用できることを実証する。局所的な自己アテンションで強化された単一構造状態空間モデル層が、勾配降下の1ステップ後に最小2乗損失を持つ暗黙線形モデルの出力を再現できることを証明した。我々の重要な洞察は、対角線リカレント層が勾配アキュムレータとして機能し、暗黙回帰モデルのパラメータに 'applied' することができるということである。単純な線形回帰タスクでランダムに初期化した拡張SSMを訓練することにより、構成を検証した。実験的に最適化されたパラメータは、暗黙のモデル構成から解析的に得られた理論のパラメータと一致する。多段階線形および非線形回帰収率一貫した結果への拡張。構築されたSSMは、現代のディープ・ステート・スペース・モデルの特徴を含み、一般的なタスクにおいてもスケーラブルなトレーニングと有効性を持つ可能性がある。理論的構成は、基礎モデルの典型的な表現力を実現するための鍵となる要素として、繰り返しアーキテクチャにおける局所的な自己注意と乗法的相互作用の役割を解明する。

関連論文リスト

Recurrent Expansion: A Pathway Toward the Next Generation of Deep Learning [0.26107298043931204]
Recurrent Expansion (RE)は、従来の機械学習(ML)とディープラーニング(DL)を超えて進化する新しい学習パラダイムである。 REは、同一のディープアーキテクチャによるデータの複数のマッピングを強調し、内部表現(フィーチャーマップ)を損失などの観測されたパフォーマンス信号とともに分析する。スケーラブルで適応的な変種であるSc-HMVREは、現実世界のデプロイメントに選択的なメカニズムとスケールの多様性を導入している。
論文参考訳（メタデータ） (2025-07-04T19:26:48Z)
Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior [25.975757048963413]
ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。 3つの視点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
論文参考訳（メタデータ） (2025-05-26T14:53:11Z)
Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文参考訳（メタデータ） (2025-04-17T13:05:33Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文参考訳（メタデータ） (2024-11-18T10:58:46Z)
A domain decomposition-based autoregressive deep learning model for unsteady and nonlinear partial differential equations [2.7755345520127936]
非定常・非線形偏微分方程式(PDE)を正確にモデル化するためのドメイン分割型ディープラーニング(DL)フレームワークCoMLSimを提案する。このフレームワークは、(a)畳み込みニューラルネットワーク(CNN)ベースのオートエンコーダアーキテクチャと(b)完全に接続された層で構成される自己回帰モデルという、2つの重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2024-08-26T17:50:47Z)
eXponential FAmily Dynamical Systems (XFADS): Large-scale nonlinear Gaussian state-space modeling [9.52474299688276]
非線形状態空間グラフィカルモデルのための低ランク構造化変分オートエンコーダフレームワークを提案する。我々のアプローチは、より予測的な生成モデルを学ぶ能力を一貫して示している。
論文参考訳（メタデータ） (2024-03-03T02:19:49Z)
Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文参考訳（メタデータ） (2024-02-29T11:20:16Z)
SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文参考訳（メタデータ） (2023-10-01T21:19:12Z)
Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文参考訳（メタデータ） (2023-04-25T15:53:45Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
What learning algorithm is in-context learning? Investigations with linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文参考訳（メタデータ） (2022-11-28T18:59:51Z)
State-driven Implicit Modeling for Sparsity and Robustness in Neural Networks [3.604879434384177]
SIM(State-driven Implicit Modeling)と呼ばれる暗黙的モデルをトレーニングするための新しいアプローチを提案する。 SIMは内部の状態と出力をベースラインモデルと一致させ、コストのかかる後方計算を回避する。本稿では,データセット上でトレーニングされたベースラインモデルの空間性とロバスト性を大幅に向上するためにSIMアプローチを適用する方法を示す。
論文参考訳（メタデータ） (2022-09-19T23:58:48Z)
Merging Two Cultures: Deep and Statistical Learning [3.15863303008255]
深層学習と統計的学習の2つの文化を組み合わせることで、構造化された高次元データに対する洞察が得られる。モデルの出力層における確率的手法を用いて予測,最適化,不確実性を実現できることを示す。
論文参考訳（メタデータ） (2021-10-22T02:57:21Z)
Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文参考訳（メタデータ） (2021-06-24T01:40:17Z)
DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文参考訳（メタデータ） (2020-11-04T07:43:01Z)
Learning Variational Data Assimilation Models and Solvers [34.22350850350653]
データ同化のためのエンドツーエンドニューラルネットワークアーキテクチャを導入する。提案するエンドツーエンド学習アーキテクチャの重要な特徴は、教師なし戦略と教師なし戦略の両方を用いてNNモデルをトレーニングできることである。
論文参考訳（メタデータ） (2020-07-25T14:28:48Z)
Causality-aware counterfactual confounding adjustment for feature representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文参考訳（メタデータ） (2020-04-20T17:37:36Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。