論文の概要: Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference
- arxiv url: http://arxiv.org/abs/2402.03175v2
- Date: Tue, 24 Sep 2024 13:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 04:54:55.678184
- Title: Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference
- Title(参考訳): ブラックボックスを超えて: LLM推論と推論の統計モデル
- Authors: Siddhartha Dalal, Vishal Misra,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の振る舞いを説明する新しいベイズ学習モデルを提案する。
我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。
- 参考スコア(独自算出の注目度): 0.9898607871253774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel Bayesian learning model to explain the behavior of Large Language Models (LLMs), focusing on their core optimization metric of next token prediction. We develop a theoretical framework based on an ideal generative text model represented by a multinomial transition probability matrix with a prior, and examine how LLMs approximate this matrix. Key contributions include: (i) a continuity theorem relating embeddings to multinomial distributions, (ii) a demonstration that LLM text generation aligns with Bayesian learning principles, (iii) an explanation for the emergence of in-context learning in larger models, (iv) empirical validation using visualizations of next token probabilities from an instrumented Llama model Our findings provide new insights into LLM functioning, offering a statistical foundation for understanding their capabilities and limitations. This framework has implications for LLM design, training, and application, potentially guiding future developments in the field.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の振る舞いを説明する新しいベイズ学習モデルを提案する。
我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。
主な貢献は以下の通り。
(i)多項分布への埋め込みに関する連続性定理
(二)LLMテキスト生成がベイズ学習の原則と整合する実演。
(三)大規模モデルにおける文脈内学習の出現に関する説明。
(4)Llamaモデルによる次のトークン確率の可視化による実証的検証により,LLM機能に関する新たな知見が得られ,その能力と限界を理解するための統計的基盤が提供される。
このフレームワークは、LLMの設計、トレーニング、アプリケーションに影響を及ぼし、この分野における将来の発展を導く可能性がある。
関連論文リスト
- Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。
以上の結果とLLMで観察された病理行動との関連性を検討した。
最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文 参考訳(メタデータ) (2024-10-03T17:45:31Z) - A Law of Next-Token Prediction in Large Language Models [30.265295018979078]
我々は,事前学習された大規模言語モデルにおいて,中間層を経由した文脈化トークン埋め込みの学習を規定する,正確かつ定量的な法則を導入する。
その結果, 各層は最下層から最上層までの予測精度の向上に等しく寄与していることがわかった。
論文 参考訳(メタデータ) (2024-08-24T02:48:40Z) - Beam Prediction based on Large Language Models [51.45077318268427]
時系列予測タスクとしてミリ波(mmWave)ビーム予測問題を定式化する。
我々は、歴史的観測をトレーニング可能なトークン化器を用いてテキストベースの表現に変換する。
提案手法はLLMのパワーを利用して将来の最適ビームを予測する。
論文 参考訳(メタデータ) (2024-08-16T12:40:01Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。