論文の概要: State space models, emergence, and ergodicity: How many parameters are needed for stable predictions?
- arxiv url: http://arxiv.org/abs/2409.13421v1
- Date: Fri, 20 Sep 2024 11:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:17:49.037859
- Title: State space models, emergence, and ergodicity: How many parameters are needed for stable predictions?
- Title(参考訳): 状態空間モデル、出現、エルゴード性:安定した予測には、どれくらいのパラメータが必要か?
- Authors: Ingvar Ziemann, Nikolai Matni, George J. Pappas,
- Abstract要約: かなりの長距離相関を示すタスクには,一定のパラメータが要求されることを示す。
また,学習者のパラメトリゼーションの役割についても検討し,隠れ状態を持つ線形力学系の簡単なバージョンを考える。
- 参考スコア(独自算出の注目度): 28.65576793023554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How many parameters are required for a model to execute a given task? It has been argued that large language models, pre-trained via self-supervised learning, exhibit emergent capabilities such as multi-step reasoning as their number of parameters reach a critical scale. In the present work, we explore whether this phenomenon can analogously be replicated in a simple theoretical model. We show that the problem of learning linear dynamical systems -- a simple instance of self-supervised learning -- exhibits a corresponding phase transition. Namely, for every non-ergodic linear system there exists a critical threshold such that a learner using fewer parameters than said threshold cannot achieve bounded error for large sequence lengths. Put differently, in our model we find that tasks exhibiting substantial long-range correlation require a certain critical number of parameters -- a phenomenon akin to emergence. We also investigate the role of the learner's parametrization and consider a simple version of a linear dynamical system with hidden state -- an imperfectly observed random walk in $\mathbb{R}$. For this situation, we show that there exists no learner using a linear filter which can succesfully learn the random walk unless the filter length exceeds a certain threshold depending on the effective memory length and horizon of the problem.
- Abstract(参考訳): 与えられたタスクを実行するために、モデルのパラメータはいくつ必要か?
自己教師付き学習によって事前訓練された大規模言語モデルは、パラメータの数が臨界スケールに達するにつれて、多段階推論のような創発的な能力を示すと論じられている。
本研究では,この現象が単純な理論モデルで類似して再現できるかどうかを考察する。
本稿では,線形力学系(自制学習の単純な例)の学習の問題点が相転移を示すことを示す。
すなわち、すべての非エルゴード線形系に対して、学習者がそのしきい値より少ないパラメータを使用すると、大きなシーケンス長の有界誤差を達成できないような臨界しきい値が存在する。
異なることに、我々のモデルでは、かなりの長距離相関を示すタスクにはパラメータ(出現に類似した現象)の臨界数が必要であり、学習者のパラメトリゼーションの役割についても検討し、隠れ状態を持つ線形力学系の単純なバージョン($\mathbb{R}$の不完全なランダムウォーク)を考える。
この状況に対して,フィルタ長が有効メモリ長と水平線に依存する一定の閾値を超えない限り,ランダムウォークを円滑に学習できる線形フィルタを用いた学習者が存在しないことを示す。
関連論文リスト
- Identifying overparameterization in Quantum Circuit Born Machines [1.7259898169307613]
量子回路Bornマシンのオーバーパラメータ化遷移の開始について,非逆勾配法を用いて学習した生成モデルについて検討する。
我々の結果は、これらのモデルのトレーニング可能性を完全に理解することは、未解決の問題であることを示している。
論文 参考訳(メタデータ) (2023-07-06T21:05:22Z) - Neural network analysis of neutron and X-ray reflectivity data:
Incorporating prior knowledge for tackling the phase problem [141.5628276096321]
本稿では,事前知識を利用して,より大規模なパラメータ空間上でのトレーニングプロセスを標準化する手法を提案する。
ボックスモデルパラメータ化を用いた多層構造を含む様々なシナリオにおいて,本手法の有効性を示す。
従来の手法とは対照的に,逆問題の複雑性を増大させると,我々の手法は好適にスケールする。
論文 参考訳(メタデータ) (2023-06-28T11:15:53Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Particle-Based Score Estimation for State Space Model Learning in
Autonomous Driving [62.053071723903834]
マルチオブジェクト状態推定はロボットアプリケーションの基本的な問題である。
粒子法を用いて最大形パラメータを学習することを検討する。
自動運転車から収集した実データに本手法を適用した。
論文 参考訳(メタデータ) (2022-12-14T01:21:05Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Neural parameter calibration for large-scale multi-agent models [0.7734726150561089]
本稿では,ニューラルネットワークを用いてパラメータの精度の高い確率密度を求める手法を提案する。
2つの組み合わせは、非常に大きなシステムであっても、モデルパラメータの密度を素早く見積もることができる強力なツールを作成する。
論文 参考訳(メタデータ) (2022-09-27T17:36:26Z) - A Causality-Based Learning Approach for Discovering the Underlying
Dynamics of Complex Systems from Partial Observations with Stochastic
Parameterization [1.2882319878552302]
本稿では,部分的な観測を伴う複雑な乱流系の反復学習アルゴリズムを提案する。
モデル構造を識別し、観測されていない変数を復元し、パラメータを推定する。
数値実験により、新しいアルゴリズムはモデル構造を同定し、多くの複雑な非線形系に対して適切なパラメータ化を提供することに成功した。
論文 参考訳(メタデータ) (2022-08-19T00:35:03Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Variational Inference and Learning of Piecewise-linear Dynamical Systems [33.23231229260119]
本稿では,線形力学系の変分近似を提案する。
モデルパラメータは静的パラメータと動的パラメータの2つの集合に分割でき、元のパラメータは線形モードの数やスイッチング変数の状態の数とともにオフラインで推定できることを示す。
論文 参考訳(メタデータ) (2020-06-02T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。