Fugu-MT 論文翻訳(概要): The Matrix: A Bayesian learning model for LLMs

論文の概要: The Matrix: A Bayesian learning model for LLMs

arxiv url: http://arxiv.org/abs/2402.03175v1
Date: Mon, 5 Feb 2024 16:42:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 14:56:49.470914
Title: The Matrix: A Bayesian learning model for LLMs
Title（参考訳）: マトリックス: LLMのためのベイズ学習モデル
Authors: Siddhartha Dalal and Vishal Misra
Abstract要約: 大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。提案手法では,先行した多項遷移確率行列で表される理想的な生成テキストモデルを構築する。埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
参考スコア（独自算出の注目度）: 1.169389391551085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a Bayesian learning model to understand the behavior of Large Language Models (LLMs). We explore the optimization metric of LLMs, which is based on predicting the next token, and develop a novel model grounded in this principle. Our approach involves constructing an ideal generative text model represented by a multinomial transition probability matrix with a prior, and we examine how LLMs approximate this matrix. We discuss the continuity of the mapping between embeddings and multinomial distributions, and present the Dirichlet approximation theorem to approximate any prior. Additionally, we demonstrate how text generation by LLMs aligns with Bayesian learning principles and delve into the implications for in-context learning, specifically explaining why in-context learning emerges in larger models where prompts are considered as samples to be updated. Our findings indicate that the behavior of LLMs is consistent with Bayesian Learning, offering new insights into their functioning and potential applications.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。本稿では,次のトークンの予測に基づくLCMの最適化基準について検討し,この原理に基づく新しいモデルを開発する。本手法では,事前の多項遷移確率行列で表現される理想的な生成テキストモデルを構築し,llmsがこの行列を近似する方法について検討する。埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。さらに,LLMによるテキスト生成がベイズ学習の原則とどのように一致しているかを示し,インコンテクスト学習の意義を掘り下げるとともに,インコンテクスト学習がより大規模なモデルに出現する理由を説明する。その結果,llmの挙動はベイズ学習と一致し,その機能と潜在的な応用に関する新たな知見が得られた。

関連論文リスト

When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文参考訳（メタデータ） (2025-05-22T05:10:34Z)
Large Language Models as Computable Approximations to Solomonoff Induction [11.811838796672369]
我々は,大規模言語モデル (LLM) とアルゴリズム情報理論 (AIT) の間の最初の公式な接続を確立する。我々はAITを活用し、文脈内学習、少数ショット学習、スケーリング法則の統一的な理論的説明を提供する。我々の枠組みは理論的基礎と実践的LLM行動のギャップを埋め、将来のモデル開発に説明力と実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-21T17:35:08Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文参考訳（メタデータ） (2025-02-10T19:36:21Z)
Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。以上の結果とLLMで観察された病理行動との関連性を検討した。最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文参考訳（メタデータ） (2024-10-03T17:45:31Z)
A Law of Next-Token Prediction in Large Language Models [30.265295018979078]
我々は,事前学習された大規模言語モデルにおいて,中間層を経由した文脈化トークン埋め込みの学習を規定する,正確かつ定量的な法則を導入する。その結果, 各層は最下層から最上層までの予測精度の向上に等しく寄与していることがわかった。
論文参考訳（メタデータ） (2024-08-24T02:48:40Z)
Beam Prediction based on Large Language Models [51.45077318268427]
時系列予測タスクとしてミリ波(mmWave)ビーム予測問題を定式化する。我々は、歴史的観測をトレーニング可能なトークン化器を用いてテキストベースの表現に変換する。提案手法はLLMのパワーを利用して将来の最適ビームを予測する。
論文参考訳（メタデータ） (2024-08-16T12:40:01Z)
The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。 NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文参考訳（メタデータ） (2024-07-16T11:12:28Z)
Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。 LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文参考訳（メタデータ） (2024-02-29T14:06:34Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文参考訳（メタデータ） (2023-10-09T15:31:03Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
To Know by the Company Words Keep and What Else Lies in the Vicinity [0.0]
本稿では,GloVe や Word2Vec など,セミナルアルゴリズムによって学習された統計データの解析モデルを提案する。われわれの知る限りでは、Word2Vecのソフトマックス最適化、スキップグラムアルゴリズムの最初の既知のソリューションである。
論文参考訳（メタデータ） (2022-04-30T03:47:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。