論文の概要: Large Language Models: A Mathematical Formulation
- arxiv url: http://arxiv.org/abs/2601.22170v1
- Date: Wed, 21 Jan 2026 21:22:49 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-02-08 13:03:29.240038
- Title: Large Language Models: A Mathematical Formulation
- Title(参考訳): 大規模言語モデル: 数学的定式化
- Authors: Ricardo Baptista, Andrew Stuart, Son Tran,
- Abstract要約: 大規模言語モデル(LLM)は、質問に答えるテキストを含むシーケンスを処理し、予測する。
トークン列へのテキストシーケンスの符号化を記述することで,LLMの数学的枠組みを提供する。
これらのモデルがデータからどのように学習されるかを説明し、さまざまなタスクにどのようにデプロイされるかを示す。
- 参考スコア(独自算出の注目度): 9.837462698662947
- License:
- Abstract: Large language models (LLMs) process and predict sequences containing text to answer questions, and address tasks including document summarization, providing recommendations, writing software and solving quantitative problems. We provide a mathematical framework for LLMs by describing the encoding of text sequences into sequences of tokens, defining the architecture for next-token prediction models, explaining how these models are learned from data, and demonstrating how they are deployed to address a variety of tasks. The mathematical sophistication required to understand this material is not high, and relies on straightforward ideas from information theory, probability and optimization. Nonetheless, the combination of ideas resting on these different components from the mathematical sciences yields a complex algorithmic structure; and this algorithmic structure has demonstrated remarkable empirical successes. The mathematical framework established here provides a platform from which it is possible to formulate and address questions concerning the accuracy, efficiency and robustness of the algorithms that constitute LLMs. The framework also suggests directions for development of modified and new methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問に回答するテキストを含むシーケンスを処理し、文書の要約、レコメンデーションの提供、ソフトウェアの作成、定量的問題の解決などのタスクに対処する。
トークンの列へのテキストシーケンスのエンコーディングを記述し、次に学習した予測モデルのアーキテクチャを定義し、これらのモデルがデータからどのように学習されるかを説明し、様々なタスクにどのようにデプロイされるかを説明することで、LCMの数学的フレームワークを提供する。
この資料を理解するのに必要な数学的洗練は高くはなく、情報理論、確率、最適化からの素直なアイデアに依存している。
それにもかかわらず、これらの異なる要素を数学的科学と組み合わせることで複雑なアルゴリズム構造が得られ、このアルゴリズム構造は顕著な経験的成功を証明している。
ここで確立された数学的枠組みは、LLMを構成するアルゴリズムの正確性、効率、堅牢性に関する疑問を定式化し、解決することのできるプラットフォームを提供する。
フレームワークはまた、修正された新しい方法論を開発するための方向も提案している。
関連論文リスト
- Teaching LLMs to Think Mathematically: A Critical Study of Decision-Making via Optimization [1.246870021158888]
本稿では,大規模言語モデル(LLM)の数学的プログラミングによる意思決定問題の定式化と解決能力について検討する。
まず、LLMがドメイン間の最適化問題をいかに理解し、構造化し、解決するかを評価するため、最近の文献の体系的レビューとメタ分析を行う。
計算機ネットワークにおける問題に対する最適化モデルの自動生成において、最先端のLLMの性能を評価するために設計されたターゲット実験により、系統的エビデンスを補完する。
論文 参考訳(メタデータ) (2025-08-25T14:52:56Z) - Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。
本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。
マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文 参考訳(メタデータ) (2025-01-21T08:28:10Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [54.486757407849915]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。