論文の概要: From Text to Trajectories: GPT-2 as an ODE Solver via In-Context
- arxiv url: http://arxiv.org/abs/2508.03031v1
- Date: Tue, 05 Aug 2025 03:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.752153
- Title: From Text to Trajectories: GPT-2 as an ODE Solver via In-Context
- Title(参考訳): テキストからトラジェクトリへ: In-Context による ODE ソルバーとしての GPT-2
- Authors: Ziyang Ma, Baojian Zhou, Deqing Yang, Yanghua Xiao,
- Abstract要約: In-Context Learning (ICL)は、大規模言語モデル(LLM)における新しいパラダイムとして登場した。
本稿では, LLM が通常の微分方程式(ODE)を ICL 設定下で解くことができるかどうかを検討する。
2種類のODEの実験により、GPT-2はEuler法と同等かそれ以上の収束挙動を持つメタODEアルゴリズムを効果的に学習できることが示されている。
- 参考スコア(独自算出の注目度): 44.198609457344574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning (ICL) has emerged as a new paradigm in large language models (LLMs), enabling them to perform novel tasks by conditioning on a few examples embedded in the prompt. Yet, the highly nonlinear behavior of ICL for NLP tasks remains poorly understood. To shed light on its underlying mechanisms, this paper investigates whether LLMs can solve ordinary differential equations (ODEs) under the ICL setting. We formulate standard ODE problems and their solutions as sequential prompts and evaluate GPT-2 models on these tasks. Experiments on two types of ODEs show that GPT-2 can effectively learn a meta-ODE algorithm, with convergence behavior comparable to, or better than, the Euler method, and achieve exponential accuracy gains with increasing numbers of demonstrations. Moreover, the model generalizes to out-of-distribution (OOD) problems, demonstrating robust extrapolation capabilities. These empirical findings provide new insights into the mechanisms of ICL in NLP and its potential for solving nonlinear numerical problems.
- Abstract(参考訳): In-Context Learning(ICL)は、大規模言語モデル(LLM)の新しいパラダイムとして登場し、プロンプトに埋め込まれたいくつかの例を条件にすることで、新しいタスクを実行できる。
しかし, NLP タスクに対する ICL の非線形挙動はよく理解されていない。
本研究は, LLMが通常の微分方程式(ODE)をICL設定下で解くことができるかどうかを考察する。
本稿では,標準ODE問題とその解を逐次的プロンプトとして定式化し,これらのタスク上でのGPT-2モデルの評価を行う。
2種類のODEに対する実験により、GPT-2はEuler法と同等かそれ以上の収束挙動を持つメタODEアルゴリズムを効果的に学習し、デモ数の増加とともに指数関数的精度向上を達成することを示した。
さらに、モデルはアウト・オブ・ディストリビューション(OOD)問題に一般化し、堅牢な外挿能力を実証する。
これらの経験的発見は、NLPにおけるICLのメカニズムと非線形数値問題を解く可能性に関する新たな洞察を与える。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - LLM4ED: Large Language Models for Automatic Equation Discovery [0.8644909837301149]
我々は、自然言語に基づくプロンプトを利用して、データから支配方程式を自動的にマイニングする大規模言語モデルをガイドする新しいフレームワークを導入する。
具体的には、まずLLMの生成能力を利用して、文字列形式で様々な方程式を生成し、次に観測に基づいて生成された方程式を評価する。
実験は偏微分方程式と常微分方程式の両方で広範囲に行われる。
論文 参考訳(メタデータ) (2024-05-13T14:03:49Z) - Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - Constraining Gaussian Processes to Systems of Linear Ordinary
Differential Equations [5.33024001730262]
LODE-GP は定数係数を持つ線形同次ODEの系に従う。
複数の実験においてLODE-GPの有効性を示す。
論文 参考訳(メタデータ) (2022-08-26T09:16:53Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。