論文の概要: LLMs learn governing principles of dynamical systems, revealing an
in-context neural scaling law
- arxiv url: http://arxiv.org/abs/2402.00795v1
- Date: Thu, 1 Feb 2024 17:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:13:05.757474
- Title: LLMs learn governing principles of dynamical systems, revealing an
in-context neural scaling law
- Title(参考訳): LLMは動的システムの統治原理を学び、文脈内ニューラルスケーリング則を明らかにする
- Authors: Toni J.B. Liu, Nicolas Boull\'e, Rapha\"el Sarfati, Christopher J.
Earls
- Abstract要約: 動的システムの振る舞いを外挿する大規模言語モデルの能力について検討する。
この結果から,LLaMAはテキストをベースとした言語モデルであり,動的システム時系列の正確な予測が可能であることがわかった。
LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained large language models (LLMs) are surprisingly effective at
performing zero-shot tasks, including time-series forecasting. However,
understanding the mechanisms behind such capabilities remains highly
challenging due to the complexity of the models. In this paper, we study LLMs'
ability to extrapolate the behavior of dynamical systems whose evolution is
governed by principles of physical interest. Our results show that LLaMA 2, a
language model trained primarily on texts, achieves accurate predictions of
dynamical system time series without fine-tuning or prompt engineering.
Moreover, the accuracy of the learned physical rules increases with the length
of the input context window, revealing an in-context version of neural scaling
law. Along the way, we present a flexible and efficient algorithm for
extracting probability density functions of multi-digit numbers directly from
LLMs.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、時系列予測を含むゼロショットタスクの実行に驚くほど効果的である。
しかしながら、そのような能力の背後にあるメカニズムを理解することは、モデルの複雑さのために非常に困難である。
本稿では,身体的関心の原則により進化が支配される力学系の挙動を外挿するLLMの能力について考察する。
その結果,テキストを中心に学習した言語モデルであるllama 2は,微調整やプロンプトエンジニアリングを行わずに,動的システムの時系列を正確に予測できることがわかった。
さらに、学習した物理規則の精度は、入力コンテキストウィンドウの長さによって増大し、ニューラルネットワークのスケーリング法則の文脈内バージョンが明らかになる。
その過程で,LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。
関連論文リスト
- Taming Pre-trained LLMs for Generalised Time Series Forecasting via
Cross-modal Knowledge Distillation [62.46869075841118]
我々はLLaTAと呼ばれる新しい大規模言語モデルと時系列アライメントフレームワークを提案し、時系列予測課題におけるLLMの可能性を完全に解き放つ。
提案手法は, クロスモーダルな知識蒸留に基づいて, 入力に依存しない静的知識と, 事前学習LLMにおける入力依存動的知識の両方を利用する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - In-Context Learning Dynamics with Random Binary Sequences [17.858267247360267]
テキスト内学習のダイナミクスを解析できるフレームワークを提案する。
人間の知覚の認知科学に触発されて、ランダムなバイナリシーケンスをコンテキストとして使用する。
最新のGPT-3.5+モデルでは、一見ランダムな数を生成し、基本形式言語を学習する創発的な能力を見出す。
論文 参考訳(メタデータ) (2023-10-26T17:54:52Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z) - Latent Dynamics Networks (LDNets): learning the intrinsic dynamics of
spatio-temporal processes [2.3694122563610924]
ラテント・ダイナミクス・ネットワーク(LDNet)は、非マルコフ力学系の低次元固有力学を発見できる。
LDNetは軽量で訓練が容易で、時間外挿方式でも精度と一般化性に優れている。
論文 参考訳(メタデータ) (2023-04-28T21:11:13Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。