論文の概要: Bilinear Sequence Regression: A Model for Learning from Long Sequences of High-dimensional Tokens
- arxiv url: http://arxiv.org/abs/2410.18858v1
- Date: Thu, 24 Oct 2024 15:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:56.799516
- Title: Bilinear Sequence Regression: A Model for Learning from Long Sequences of High-dimensional Tokens
- Title(参考訳): Bilinear Sequence Regression:高次元トークンの長いシーケンスから学習するモデル
- Authors: Vittorio Erba, Emanuele Troiani, Luca Biggio, Antoine Maillard, Lenka Zdeborová,
- Abstract要約: トークン列の最も基本的なモデルの一つとして,双線形シーケンス回帰(BSR)を導入,研究する。
トークン列のベクトル化や単純な線形回帰による学習に関して、最適な学習がもたらす改善を定量化する。
- 参考スコア(独自算出の注目度): 14.424050371971354
- License:
- Abstract: Current progress in artificial intelligence is centered around so-called large language models that consist of neural networks processing long sequences of high-dimensional vectors called tokens. Statistical physics provides powerful tools to study the functioning of learning with neural networks and has played a recognized role in the development of modern machine learning. The statistical physics approach relies on simplified and analytically tractable models of data. However, simple tractable models for long sequences of high-dimensional tokens are largely underexplored. Inspired by the crucial role models such as the single-layer teacher-student perceptron (aka generalized linear regression) played in the theory of fully connected neural networks, in this paper, we introduce and study the bilinear sequence regression (BSR) as one of the most basic models for sequences of tokens. We note that modern architectures naturally subsume the BSR model due to the skip connections. Building on recent methodological progress, we compute the Bayes-optimal generalization error for the model in the limit of long sequences of high-dimensional tokens, and provide a message-passing algorithm that matches this performance. We quantify the improvement that optimal learning brings with respect to vectorizing the sequence of tokens and learning via simple linear regression. We also unveil surprising properties of the gradient descent algorithms in the BSR model.
- Abstract(参考訳): 人工知能の現在の進歩は、トークンと呼ばれる高次元ベクトルの長いシーケンスを処理するニューラルネットワークからなるいわゆる大規模言語モデルを中心にしている。
統計物理学はニューラルネットワークによる学習機能の研究に強力なツールを提供し、現代の機械学習の発展に重要な役割を果たした。
統計物理学のアプローチは、単純化され分析的に抽出可能なデータのモデルに依存している。
しかし、高次元トークンの長い列に対する単純な抽出可能なモデルは、ほとんど探索されていない。
本稿では, 完全連結ニューラルネットワーク理論における一層型教師学生パーセプトロン(いわゆる一般化線形回帰)のような重要な役割モデルに着想を得て, トークン列の最も基本的なモデルとして, 双線形シーケンス回帰(BSR)を導入, 研究する。
現代のアーキテクチャでは、スキップ接続によりBSRモデルが自然にサブスクライブされていることに留意する。
近年の方法論的進歩に基づいて,高次元トークンの長い列の極限におけるモデルに対するベイズ最適一般化誤差を計算し,この性能に適合するメッセージパスアルゴリズムを提案する。
トークン列のベクトル化や単純な線形回帰による学習に関して、最適な学習がもたらす改善を定量化する。
また,BSRモデルにおける勾配降下アルゴリズムの驚くべき特性を明らかにした。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Learning to Continually Learn with the Bayesian Principle [36.75558255534538]
本研究では、ニューラルネットワークの強力な表現力と、忘れることに対する単純な統計モデルの堅牢性を組み合わせたメタラーニングパラダイムを採用する。
ニューラルネットワークは継続学習中に固定されているため、破滅的な忘れ物から保護されている。
論文 参考訳(メタデータ) (2024-05-29T04:53:31Z) - Learning from Linear Algebra: A Graph Neural Network Approach to Preconditioner Design for Conjugate Gradient Solvers [42.69799418639716]
深層学習モデルは、共役勾配 (CG) 法のような線形解法を反復する際の残差を予条件として用いることができる。
ニューラルネットワークモデルは、この設定でうまく近似するために、膨大な数のパラメータを必要とする。
本研究では,線形代数学から確立したプレコンディショナーを思い出し,GNNの学習の出発点として利用する。
論文 参考訳(メタデータ) (2024-05-24T13:44:30Z) - Learning From Simplicial Data Based on Random Walks and 1D Convolutions [6.629765271909503]
ランダムウォークと高速1D畳み込みに基づく単純な複雑なニューラルネットワーク学習アーキテクチャ。
実世界のデータセット上でSCRaWlを実証的に評価し、他の単純なニューラルネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-04T13:27:22Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。