Fugu-MT 論文翻訳(概要): LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law

論文の概要: LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law

arxiv url: http://arxiv.org/abs/2402.00795v3
Date: Thu, 03 Oct 2024 21:56:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 08:01:31.369616
Title: LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law
Title（参考訳）: LLMは動的システムの統治原理を学習し、文脈内ニューラルスケーリング法則を明らかにする
Authors: Toni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls,
Abstract要約: 主にテキストに基づいて訓練された言語モデルは、微調整やプロンプトエンジニアリングなしで動的システム時系列の正確な予測を行う。 LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 3.281128493853064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained large language models (LLMs) are surprisingly effective at performing zero-shot tasks, including time-series forecasting. However, understanding the mechanisms behind such capabilities remains highly challenging due to the complexity of the models. We study LLMs' ability to extrapolate the behavior of dynamical systems whose evolution is governed by principles of physical interest. Our results show that LLaMA 2, a language model trained primarily on texts, achieves accurate predictions of dynamical system time series without fine-tuning or prompt engineering. Moreover, the accuracy of the learned physical rules increases with the length of the input context window, revealing an in-context version of neural scaling law. Along the way, we present a flexible and efficient algorithm for extracting probability density functions of multi-digit numbers directly from LLMs.
Abstract（参考訳）: 事前訓練された大言語モデル(LLM)は、時系列予測を含むゼロショットタスクを実行するのに驚くほど効果的である。しかしながら、そのような機能の背後にあるメカニズムを理解することは、モデルの複雑さのために非常に難しいままである。進化が物理的関心の原理によって支配される力学系の振る舞いを外挿するLLMの能力について検討する。この結果から,LLaMA2はテキストを中心に訓練された言語モデルであり,微調整やプロンプトエンジニアリングを伴わずに,動的システム時系列の正確な予測を行うことができた。さらに、学習した物理規則の精度は、入力コンテキストウィンドウの長さによって増大し、ニューラルネットワークのスケーリング法則の文脈内バージョンが明らかになる。その過程で,LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。

関連論文リスト

Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。 POETは、目的関数を安定して最適化し、一般化を改善する。我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文参考訳（メタデータ） (2025-06-09T17:59:34Z)
When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文参考訳（メタデータ） (2025-05-22T05:10:34Z)
Physics Informed Constrained Learning of Dynamics from Static Data [8.346864633675414]
物理インフォームドニューラルネットワーク(PINN)は、制御物理法則をニューラルネットワークのアーキテクチャに統合することにより、システムのダイナミクスをモデル化する。既存のPINNフレームワークは、完全に観測された時間軸データに依存しており、多くのシステムでは取得が禁止される可能性がある。本研究では,非時間コースや部分的に観測されたデータを用いて一階微分や動きを近似できる新しいPINN学習パラダイムであるConstrained Learningを開発した。
論文参考訳（メタデータ） (2025-04-17T06:06:53Z)
LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文参考訳（メタデータ） (2025-03-12T11:45:11Z)
Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文参考訳（メタデータ） (2024-11-24T00:33:43Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
FLUID-LLM: Learning Computational Fluid Dynamics with Spatiotemporal-aware Large Language Models [15.964726158869777]
大規模言語モデル(LLM)は、顕著なパターン認識と推論能力を示している。 FLUID-LLMは,非定常流体力学を予測するために,事前学習LLMと事前認識符号化を組み合わせた新しいフレームワークである。この結果から,FLUID-LLMは時間情報を事前学習したLLMに効果的に統合し,CFDタスク性能を向上させることが示唆された。
論文参考訳（メタデータ） (2024-06-06T20:55:40Z)
Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。 VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
In-Context Learning Dynamics with Random Binary Sequences [16.645695664776433]
テキスト内学習のダイナミクスを解析できるフレームワークを提案する。人間の知覚の認知科学に触発されて、ランダムなバイナリシーケンスをコンテキストとして使用する。最新のGPT-3.5+モデルでは、一見ランダムな数を生成し、基本形式言語を学習する創発的な能力を見出す。
論文参考訳（メタデータ） (2023-10-26T17:54:52Z)
Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文参考訳（メタデータ） (2023-10-03T01:31:25Z)
Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文参考訳（メタデータ） (2023-09-27T06:33:29Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文参考訳（メタデータ） (2022-05-26T20:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。