Fugu-MT 論文翻訳(概要): Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks

論文の概要: Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks

arxiv url: http://arxiv.org/abs/2405.15731v1
Date: Fri, 24 May 2024 17:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 13:01:17.398938
Title: Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks
Title（参考訳）: 基礎モデルの違いを理解する:注意、状態空間モデル、リカレントニューラルネットワーク
Authors: Jerome Sieber, Carmen Amo Alonso, Alexandre Didier, Melanie N. Zeilinger, Antonio Orvieto,
Abstract要約: 本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
参考スコア（独自算出の注目度）: 50.29356570858905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Softmax attention is the principle backbone of foundation models for various artificial intelligence applications, yet its quadratic complexity in sequence length can limit its inference throughput in long-context settings. To address this challenge, alternative architectures such as linear attention, State Space Models (SSMs), and Recurrent Neural Networks (RNNs) have been considered as more efficient alternatives. While connections between these approaches exist, such models are commonly developed in isolation and there is a lack of theoretical understanding of the shared principles underpinning these architectures and their subtle differences, greatly influencing performance and scalability. In this paper, we introduce the Dynamical Systems Framework (DSF), which allows a principled investigation of all these architectures in a common representation. Our framework facilitates rigorous comparisons, providing new insights on the distinctive characteristics of each model class. For instance, we compare linear attention and selective SSMs, detailing their differences and conditions under which both are equivalent. We also provide principled comparisons between softmax attention and other model classes, discussing the theoretical conditions under which softmax attention can be approximated. Additionally, we substantiate these new insights with empirical validations and mathematical arguments. This shows the DSF's potential to guide the systematic development of future more efficient and scalable foundation models.
Abstract（参考訳）: ソフトマックス・アテンション(Softmax attention)は、様々な人工知能アプリケーションの基礎モデルの基本的なバックボーンであるが、シーケンス長の2次複雑さは、長いコンテキスト設定で推論スループットを制限することができる。この課題に対処するため、線形アテンション、ステートスペースモデル(SSM)、リカレントニューラルネットワーク(RNN)といった代替アーキテクチャがより効率的な代替案として検討されている。これらのアプローチ間の関係は存在するが、そのようなモデルは一般的に独立して開発されており、これらのアーキテクチャを支える共通原則とその微妙な違いを理論的に理解していないため、パフォーマンスとスケーラビリティに大きな影響を及ぼす。本稿では,これらすべてのアーキテクチャを共通表現で探索する動的システムフレームワーク(DSF)について紹介する。我々のフレームワークは厳密な比較を促進し、各モデルクラスの特色に関する新たな洞察を提供する。例えば、線形注意と選択的SSMを比較し、両者が等価である相違点と条件を詳述する。また、ソフトマックスアテンションと他のモデルクラスとの原理的な比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。さらに、これらの新たな知見を経験的検証と数学的議論で裏付ける。このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。

関連論文リスト

Hierarchical Inference and Closure Learning via Adaptive Surrogates for ODEs and PDEs [15.38864225184245]
逆問題は、データに合うようにモデルを校正するタスクである。我々は、異なるが関連する物理システムのコレクションからのデータを活用するための原則的方法論を開発する。我々は、MLベースのクロージャモデルという形で、共有未知のダイナミクスを学習する。
論文参考訳（メタデータ） (2026-03-04T10:30:08Z)
On the Relation of State Space Models and Hidden Markov Models [0.07646713951724009]
State Space Models (SSM) と Hidden Markov Models (HMM) は、遅延変数で逐次データをモデリングするための基礎的なフレームワークである。最近の決定論的状態空間モデルは、S4やMambaのようなアーキテクチャを通して自然言語処理に再導入されている。
論文参考訳（メタデータ） (2026-01-19T19:51:05Z)
Design Principles for Sequence Models via Coefficient Dynamics [20.14360019974826]
インパルス入力によって駆動される自律線形力学系の出力として線形結合係数をキャストすることにより、この出力演算を明示する統一的なフレームワークを開発する。この視点は、線形RNNと線形注意を結びつけることに焦点を当てたアプローチとは大きく異なり、多様なアーキテクチャにまたがる共通の数学的テーマを明らかにしている。これにより、表現性と効率的な実装のトレードオフ、入力選択性に関する幾何学的制約、数値的に安定したトレーニングと情報保持のための安定性条件を識別できる。
論文参考訳（メタデータ） (2025-10-10T13:42:31Z)
KAN-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics [0.0]
コルモゴロフ・アルノルドネットワーク(KAN)は多層パーセプトロン(MLP)の代替品であるこの研究は、Kansをニューラル常微分方程式(ODE)フレームワークのバックボーンとして適用する。
論文参考訳（メタデータ） (2024-07-05T00:38:49Z)
Learnable & Interpretable Model Combination in Dynamic Systems Modeling [0.0]
我々は、通常、どのモデルが組み合わされるかについて議論し、様々な混合方程式に基づくモデルを表現することができるモデルインターフェースを提案する。本稿では,2つの組み合わせモデル間の汎用的な接続を,容易に解釈可能な方法で記述できる新しいワイルドカードトポロジーを提案する。本稿では、2つのモデル間の異なる接続トポロジを学習し、解釈し、比較する。
論文参考訳（メタデータ） (2024-06-12T11:17:11Z)
Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
論文参考訳（メタデータ） (2024-05-26T09:57:45Z)
Graph Neural PDE Solvers with Conservation and Similarity-Equivariance [6.077284832583712]
本研究は,保存法則や物理対称性に固執する,高度に一般化可能な新しい機械学習アーキテクチャを提案する。このアーキテクチャの基礎はグラフニューラルネットワーク(GNN)である。
論文参考訳（メタデータ） (2024-05-25T11:18:27Z)
State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文参考訳（メタデータ） (2024-03-25T16:10:47Z)
Deep Equilibrium Models Meet Federated Learning [71.57324258813675]
本研究では,従来の深層学習ネットワークの代わりにDeep Equilibrium(DEQ)モデルを用いて,フェデレートラーニング(FL)問題について検討する。我々は、DECモデルをフェデレート学習フレームワークに組み込むことで、FLのいくつかのオープンな問題に自然に対処できると主張している。我々の知る限りでは、この研究は、DECモデルとフェデレーションラーニングの関連性を確立する最初のものである。
論文参考訳（メタデータ） (2023-05-29T22:51:40Z)
Learning Neural Constitutive Laws From Motion Observations for Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。 PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-04-27T17:42:24Z)
Universal approximation property of invertible neural networks [76.95927093274392]
Invertible Neural Network (INN) は、設計によって可逆性を持つニューラルネットワークアーキテクチャである。その可逆性とヤコビアンのトラクタビリティのおかげで、IGNは確率的モデリング、生成的モデリング、表現的学習など、さまざまな機械学習応用がある。
論文参考訳（メタデータ） (2022-04-15T10:45:26Z)
Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文参考訳（メタデータ） (2021-06-24T01:40:17Z)
Disentangling Identifiable Features from Noisy Data with Structured Nonlinear ICA [4.340954888479091]
我々は、SNICA(Structured Independent Component Analysis)と呼ばれる原則的絡み合いのための新しい一般化可能なフレームワークを導入する。我々の貢献は、非常に広い階層構造モデルに対する深層生成モデルの識別可能性理論を拡張することである。我々は,未知分布の雑音の存在下でも,このフレームワークの識別可能性が維持可能であるという主要な結果を確立する。
論文参考訳（メタデータ） (2021-06-17T15:56:57Z)
Deep Learning modeling of Limit Order Book: a comparative perspective [0.0]
本研究は、高周波取引のためのディープラーニング分野における理論的および実践的な問題に対処する。ランダムモデル、ロジスティック回帰、LSTM、アテンションマスクを備えたLSTM、CNN-LSTM、アテンションなどの最先端モデルについてレビューし、同じタスクで比較する。モデリング手法の根底にある次元は、リミット・オーダー・ブックの力学に固有のものかどうかを理解するために研究される。
論文参考訳（メタデータ） (2020-07-12T17:06:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。