Fugu-MT 論文翻訳(概要): Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference

論文の概要: Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference

arxiv url: http://arxiv.org/abs/2402.03175v2
Date: Tue, 24 Sep 2024 13:30:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 04:54:55.678184
Title: Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference
Title（参考訳）: ブラックボックスを超えて: LLM推論と推論の統計モデル
Authors: Siddhartha Dalal, Vishal Misra,
Abstract要約: 本稿では,大規模言語モデル(LLM)の振る舞いを説明する新しいベイズ学習モデルを提案する。我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。
参考スコア（独自算出の注目度）: 0.9898607871253774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel Bayesian learning model to explain the behavior of Large Language Models (LLMs), focusing on their core optimization metric of next token prediction. We develop a theoretical framework based on an ideal generative text model represented by a multinomial transition probability matrix with a prior, and examine how LLMs approximate this matrix. Key contributions include: (i) a continuity theorem relating embeddings to multinomial distributions, (ii) a demonstration that LLM text generation aligns with Bayesian learning principles, (iii) an explanation for the emergence of in-context learning in larger models, (iv) empirical validation using visualizations of next token probabilities from an instrumented Llama model Our findings provide new insights into LLM functioning, offering a statistical foundation for understanding their capabilities and limitations. This framework has implications for LLM design, training, and application, potentially guiding future developments in the field.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) の振る舞いを説明する新しいベイズ学習モデルを提案する。我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。主な貢献は以下の通り。 (i)多項分布への埋め込みに関する連続性定理 (二)LLMテキスト生成がベイズ学習の原則と整合する実演。 (三)大規模モデルにおける文脈内学習の出現に関する説明。 (4)Llamaモデルによる次のトークン確率の可視化による実証的検証により,LLM機能に関する新たな知見が得られ,その能力と限界を理解するための統計的基盤が提供される。このフレームワークは、LLMの設計、トレーニング、アプリケーションに影響を及ぼし、この分野における将来の発展を導く可能性がある。

関連論文リスト

When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文参考訳（メタデータ） (2025-05-22T05:10:34Z)
Large Language Models as Computable Approximations to Solomonoff Induction [11.811838796672369]
我々は,大規模言語モデル (LLM) とアルゴリズム情報理論 (AIT) の間の最初の公式な接続を確立する。我々はAITを活用し、文脈内学習、少数ショット学習、スケーリング法則の統一的な理論的説明を提供する。我々の枠組みは理論的基礎と実践的LLM行動のギャップを埋め、将来のモデル開発に説明力と実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-21T17:35:08Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文参考訳（メタデータ） (2025-02-10T19:36:21Z)
Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。以上の結果とLLMで観察された病理行動との関連性を検討した。最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文参考訳（メタデータ） (2024-10-03T17:45:31Z)
A Law of Next-Token Prediction in Large Language Models [30.265295018979078]
我々は,事前学習された大規模言語モデルにおいて,中間層を経由した文脈化トークン埋め込みの学習を規定する,正確かつ定量的な法則を導入する。その結果, 各層は最下層から最上層までの予測精度の向上に等しく寄与していることがわかった。
論文参考訳（メタデータ） (2024-08-24T02:48:40Z)
Beam Prediction based on Large Language Models [51.45077318268427]
時系列予測タスクとしてミリ波(mmWave)ビーム予測問題を定式化する。我々は、歴史的観測をトレーニング可能なトークン化器を用いてテキストベースの表現に変換する。提案手法はLLMのパワーを利用して将来の最適ビームを予測する。
論文参考訳（メタデータ） (2024-08-16T12:40:01Z)
The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。 NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文参考訳（メタデータ） (2024-07-16T11:12:28Z)
Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。 LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文参考訳（メタデータ） (2024-02-29T14:06:34Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文参考訳（メタデータ） (2023-10-09T15:31:03Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
To Know by the Company Words Keep and What Else Lies in the Vicinity [0.0]
本稿では,GloVe や Word2Vec など,セミナルアルゴリズムによって学習された統計データの解析モデルを提案する。われわれの知る限りでは、Word2Vecのソフトマックス最適化、スキップグラムアルゴリズムの最初の既知のソリューションである。
論文参考訳（メタデータ） (2022-04-30T03:47:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。