論文の概要: The Matrix: A Bayesian learning model for LLMs
- arxiv url: http://arxiv.org/abs/2402.03175v1
- Date: Mon, 5 Feb 2024 16:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:56:49.470914
- Title: The Matrix: A Bayesian learning model for LLMs
- Title(参考訳): マトリックス: LLMのためのベイズ学習モデル
- Authors: Siddhartha Dalal and Vishal Misra
- Abstract要約: 大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。
提案手法では,先行した多項遷移確率行列で表される理想的な生成テキストモデルを構築する。
埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
- 参考スコア(独自算出の注目度): 1.169389391551085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a Bayesian learning model to understand the
behavior of Large Language Models (LLMs). We explore the optimization metric of
LLMs, which is based on predicting the next token, and develop a novel model
grounded in this principle. Our approach involves constructing an ideal
generative text model represented by a multinomial transition probability
matrix with a prior, and we examine how LLMs approximate this matrix. We
discuss the continuity of the mapping between embeddings and multinomial
distributions, and present the Dirichlet approximation theorem to approximate
any prior. Additionally, we demonstrate how text generation by LLMs aligns with
Bayesian learning principles and delve into the implications for in-context
learning, specifically explaining why in-context learning emerges in larger
models where prompts are considered as samples to be updated. Our findings
indicate that the behavior of LLMs is consistent with Bayesian Learning,
offering new insights into their functioning and potential applications.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。
本稿では,次のトークンの予測に基づくLCMの最適化基準について検討し,この原理に基づく新しいモデルを開発する。
本手法では,事前の多項遷移確率行列で表現される理想的な生成テキストモデルを構築し,llmsがこの行列を近似する方法について検討する。
埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
さらに,LLMによるテキスト生成がベイズ学習の原則とどのように一致しているかを示し,インコンテクスト学習の意義を掘り下げるとともに,インコンテクスト学習がより大規模なモデルに出現する理由を説明する。
その結果,llmの挙動はベイズ学習と一致し,その機能と潜在的な応用に関する新たな知見が得られた。
関連論文リスト
- A Law of Next-Token Prediction in Large Language Models [30.265295018979078]
我々は,事前学習された大規模言語モデルにおいて,中間層を経由した文脈化トークン埋め込みの学習を規定する,正確かつ定量的な法則を導入する。
その結果, 各層は最下層から最上層までの予測精度の向上に等しく寄与していることがわかった。
論文 参考訳(メタデータ) (2024-08-24T02:48:40Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - To Know by the Company Words Keep and What Else Lies in the Vicinity [0.0]
本稿では,GloVe や Word2Vec など,セミナルアルゴリズムによって学習された統計データの解析モデルを提案する。
われわれの知る限りでは、Word2Vecのソフトマックス最適化、スキップグラムアルゴリズムの最初の既知のソリューションである。
論文 参考訳(メタデータ) (2022-04-30T03:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。