論文の概要: Large Language Models: A Mathematical Formulation
- arxiv url: http://arxiv.org/abs/2601.22170v1
- Date: Wed, 21 Jan 2026 21:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.165147
- Title: Large Language Models: A Mathematical Formulation
- Title(参考訳): 大規模言語モデル: 数学的定式化
- Authors: Ricardo Baptista, Andrew Stuart, Son Tran,
- Abstract要約: 大規模言語モデル(LLM)は、質問に答えるテキストを含むシーケンスを処理し、予測する。
トークン列へのテキストシーケンスの符号化を記述することで,LLMの数学的枠組みを提供する。
これらのモデルがデータからどのように学習されるかを説明し、さまざまなタスクにどのようにデプロイされるかを示す。
- 参考スコア(独自算出の注目度): 9.837462698662947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) process and predict sequences containing text to answer questions, and address tasks including document summarization, providing recommendations, writing software and solving quantitative problems. We provide a mathematical framework for LLMs by describing the encoding of text sequences into sequences of tokens, defining the architecture for next-token prediction models, explaining how these models are learned from data, and demonstrating how they are deployed to address a variety of tasks. The mathematical sophistication required to understand this material is not high, and relies on straightforward ideas from information theory, probability and optimization. Nonetheless, the combination of ideas resting on these different components from the mathematical sciences yields a complex algorithmic structure; and this algorithmic structure has demonstrated remarkable empirical successes. The mathematical framework established here provides a platform from which it is possible to formulate and address questions concerning the accuracy, efficiency and robustness of the algorithms that constitute LLMs. The framework also suggests directions for development of modified and new methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問に回答するテキストを含むシーケンスを処理し、文書の要約、レコメンデーションの提供、ソフトウェアの作成、定量的問題の解決などのタスクに対処する。
トークンの列へのテキストシーケンスのエンコーディングを記述し、次に学習した予測モデルのアーキテクチャを定義し、これらのモデルがデータからどのように学習されるかを説明し、様々なタスクにどのようにデプロイされるかを説明することで、LCMの数学的フレームワークを提供する。
この資料を理解するのに必要な数学的洗練は高くはなく、情報理論、確率、最適化からの素直なアイデアに依存している。
それにもかかわらず、これらの異なる要素を数学的科学と組み合わせることで複雑なアルゴリズム構造が得られ、このアルゴリズム構造は顕著な経験的成功を証明している。
ここで確立された数学的枠組みは、LLMを構成するアルゴリズムの正確性、効率、堅牢性に関する疑問を定式化し、解決することのできるプラットフォームを提供する。
フレームワークはまた、修正された新しい方法論を開発するための方向も提案している。
関連論文リスト
- Teaching LLMs to Think Mathematically: A Critical Study of Decision-Making via Optimization [1.246870021158888]
本稿では,大規模言語モデル(LLM)の数学的プログラミングによる意思決定問題の定式化と解決能力について検討する。
まず、LLMがドメイン間の最適化問題をいかに理解し、構造化し、解決するかを評価するため、最近の文献の体系的レビューとメタ分析を行う。
計算機ネットワークにおける問題に対する最適化モデルの自動生成において、最先端のLLMの性能を評価するために設計されたターゲット実験により、系統的エビデンスを補完する。
論文 参考訳(メタデータ) (2025-08-25T14:52:56Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - A Survey on Mathematical Reasoning and Optimization with Large Language Models [0.5439020425819]
大規模言語モデル(LLM)の最近の進歩は、AIによる数学的推論、定理証明、最適化技術を大幅に改善している。
この調査は、AIにおける数学的問題解決の進化を、初期の統計的学習アプローチから近代的なディープラーニングやトランスフォーマーに基づく方法論まで調査する。
論文 参考訳(メタデータ) (2025-03-22T10:49:32Z) - Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。
本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。
マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文 参考訳(メタデータ) (2025-01-21T08:28:10Z) - Large Language Models for Mathematical Analysis [3.7325315394927023]
この研究は、数学的推論における重要なギャップに対処し、信頼できるAIの進歩に寄与する。
DEMI-MathAnalysisデータセットを開発した。
また,LLMの問題解決能力を高めるためのガイドフレームワークも設計した。
論文 参考訳(メタデータ) (2024-12-28T20:37:55Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [54.486757407849915]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。