論文の概要: The Matrix: A Bayesian learning model for LLMs
- arxiv url: http://arxiv.org/abs/2402.03175v1
- Date: Mon, 5 Feb 2024 16:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:56:49.470914
- Title: The Matrix: A Bayesian learning model for LLMs
- Title(参考訳): マトリックス: LLMのためのベイズ学習モデル
- Authors: Siddhartha Dalal and Vishal Misra
- Abstract要約: 大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。
提案手法では,先行した多項遷移確率行列で表される理想的な生成テキストモデルを構築する。
埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
- 参考スコア(独自算出の注目度): 1.169389391551085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a Bayesian learning model to understand the
behavior of Large Language Models (LLMs). We explore the optimization metric of
LLMs, which is based on predicting the next token, and develop a novel model
grounded in this principle. Our approach involves constructing an ideal
generative text model represented by a multinomial transition probability
matrix with a prior, and we examine how LLMs approximate this matrix. We
discuss the continuity of the mapping between embeddings and multinomial
distributions, and present the Dirichlet approximation theorem to approximate
any prior. Additionally, we demonstrate how text generation by LLMs aligns with
Bayesian learning principles and delve into the implications for in-context
learning, specifically explaining why in-context learning emerges in larger
models where prompts are considered as samples to be updated. Our findings
indicate that the behavior of LLMs is consistent with Bayesian Learning,
offering new insights into their functioning and potential applications.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。
本稿では,次のトークンの予測に基づくLCMの最適化基準について検討し,この原理に基づく新しいモデルを開発する。
本手法では,事前の多項遷移確率行列で表現される理想的な生成テキストモデルを構築し,llmsがこの行列を近似する方法について検討する。
埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
さらに,LLMによるテキスト生成がベイズ学習の原則とどのように一致しているかを示し,インコンテクスト学習の意義を掘り下げるとともに,インコンテクスト学習がより大規模なモデルに出現する理由を説明する。
その結果,llmの挙動はベイズ学習と一致し,その機能と潜在的な応用に関する新たな知見が得られた。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Deep de Finetti: Recovering Topic Distributions from Large Language
Models [10.151434138893034]
大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。
LLMは文書を特徴付ける潜在構造を表現する必要がある。
本稿では,文書のトピック構造を補完する側面について考察する。
論文 参考訳(メタデータ) (2023-12-21T16:44:39Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - On Learning to Summarize with Large Language Models as References [105.62615205746106]
本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。