論文の概要: Beyond the Black Box: Theory and Mechanism of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.02907v1
- Date: Tue, 06 Jan 2026 10:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.897762
- Title: Beyond the Black Box: Theory and Mechanism of Large Language Models
- Title(参考訳): ブラックボックスを超えて:大規模言語モデルの理論とメカニズム
- Authors: Zeyu Gan, Ruifeng Ren, Wei Yao, Xiaolin Hu, Gengze Xu, Chen Qian, Huayi Tang, Zixuan Gong, Xinhao Yao, Pengwei Tang, Zhenxing Dou, Yong Liu,
- Abstract要約: LLM(Large Language Models)の急速な台頭は、人工知能において大きなパラダイムシフトを引き起こした。
本調査では,データ作成,モデル作成,トレーニング,アライメント,推論,評価の6つの段階に,研究環境を整理するライフサイクルベースの統合分類法を提案する。
- 参考スコア(独自算出の注目度): 39.10631426330405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid emergence of Large Language Models (LLMs) has precipitated a profound paradigm shift in Artificial Intelligence, delivering monumental engineering successes that increasingly impact modern society. However, a critical paradox persists within the current field: despite the empirical efficacy, our theoretical understanding of LLMs remains disproportionately nascent, forcing these systems to be treated largely as ``black boxes''. To address this theoretical fragmentation, this survey proposes a unified lifecycle-based taxonomy that organizes the research landscape into six distinct stages: Data Preparation, Model Preparation, Training, Alignment, Inference, and Evaluation. Within this framework, we provide a systematic review of the foundational theories and internal mechanisms driving LLM performance. Specifically, we analyze core theoretical issues such as the mathematical justification for data mixtures, the representational limits of various architectures, and the optimization dynamics of alignment algorithms. Moving beyond current best practices, we identify critical frontier challenges, including the theoretical limits of synthetic data self-improvement, the mathematical bounds of safety guarantees, and the mechanistic origins of emergent intelligence. By connecting empirical observations with rigorous scientific inquiry, this work provides a structured roadmap for transitioning LLM development from engineering heuristics toward a principled scientific discipline.
- Abstract(参考訳): LLM(Large Language Models)の急激な台頭は人工知能のパラダイムシフトを招き、現代社会にますます影響を及ぼす重要な工学的成功をもたらした。
しかしながら、批判的なパラドックスは、経験的有効性にもかかわらず、我々のLLMに関する理論的理解は相変わらず不均等に生まれ、これらのシステムを主に「ブラックボックス」として扱わざるを得ない。
この理論的断片化に対処するため,本研究では,データ作成,モデル作成,トレーニング,アライメント,推論,評価の6つの段階に,研究環境を整理するライフサイクルベースの統合分類法を提案する。
本枠組みでは, LLM性能を駆動する基礎理論と内部機構を体系的に検討する。
具体的には、データ混合の数学的正当性、様々なアーキテクチャの表現限界、アライメントアルゴリズムの最適化力学など、基本的な理論的問題を分析する。
現在のベストプラクティスを超えて、私たちは、合成データの自己改善の理論的限界、数学的に安全な保証の境界、創発的知性の起源など、重要なフロンティアの課題を特定します。
実験的な観察と厳密な科学的調査を結びつけることで、この研究はLLM開発を工学的ヒューリスティックから原則化された科学分野に移行するための構造化されたロードマップを提供する。
関連論文リスト
- Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning [14.337056020596465]
CoT-Spaceは、離散トークン予測タスクから連続的、推論レベルのセマンティック空間内の最適化プロセスへの推論を、LLM(Large Language Models)に再キャストする新しい理論フレームワークである。
最適CoT長への収束は、不適合と過適合の基本的なトレードオフの自然な結果であることを示す。
論文 参考訳(メタデータ) (2025-09-04T09:02:16Z) - Model Reprogramming Demystified: A Neural Tangent Kernel Perspective [49.42322600160337]
本稿では,ニューラルタンジェントカーネル(NTK)フレームワークのレンズを用いて,モデル再プログラミング(MR)の包括的理論的解析を行う。
目的とするデータセット上でのNTK行列の固有値スペクトルによってMRの成功が制御されることを示す。
我々の貢献には、MRの新たな理論フレームワーク、ソースモデルとターゲットモデルの関係に関する洞察、そして我々の発見を検証した広範な実験が含まれる。
論文 参考訳(メタデータ) (2025-05-31T16:15:04Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。