論文の概要: Large Language Models as Discounted Bayesian Filters
- arxiv url: http://arxiv.org/abs/2512.18489v1
- Date: Sat, 20 Dec 2025 19:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.362655
- Title: Large Language Models as Discounted Bayesian Filters
- Title(参考訳): 分散ベイズフィルタとしての大規模言語モデル
- Authors: Jensen Zhang, Jing Yang, Keze Wang,
- Abstract要約: 大規模言語モデル(LLM)におけるオンライン推論を評価するためのベイズフィルタリングフレームワークを提案する。
LLMの信念更新はベイズ的後部と似ているが, モデル固有割引係数が1より小さい指数的忘れフィルタにより, より正確に特徴付けられる。
固有の先入観はしばしば誤解されるが、更新メカニズム自体は構造化され原則化されたままである。
- 参考スコア(独自算出の注目度): 14.164508061248775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong few-shot generalization through in-context learning, yet their reasoning in dynamic and stochastic environments remains opaque. Prior studies mainly focus on static tasks and overlook the online adaptation required when beliefs must be continuously updated, which is a key capability for LLMs acting as world models or agents. We introduce a Bayesian filtering framework to evaluate online inference in LLMs. Our probabilistic probe suite spans both multivariate discrete distributions, such as dice rolls, and continuous distributions, such as Gaussian processes, where ground-truth parameters shift over time. We find that while LLM belief updates resemble Bayesian posteriors, they are more accurately characterized by an exponential forgetting filter with a model-specific discount factor smaller than one. This reveals systematic discounting of older evidence that varies significantly across model architectures. Although inherent priors are often miscalibrated, the updating mechanism itself remains structured and principled. We further validate these findings in a simulated agent task and propose prompting strategies that effectively recalibrate priors with minimal computational cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈内学習を通じて強力な数ショットの一般化を示すが、動的で確率的な環境での推論は不透明である。
従来の研究は主に静的タスクに重点を置いており、信念を継続的に更新する必要がある場合に必要なオンライン適応を見落としている。
LLMにおけるオンライン推論を評価するためのベイズフィルタフレームワークを提案する。
我々の確率論的プローブスイートは、ダイスロールのような多変量離散分布とガウス過程のような連続分布の両方にまたがる。
LLMの信念更新はベイズ的後部と似ているが, モデル固有割引係数が1より小さい指数的忘れフィルタにより, より正確に特徴付けられる。
これは、モデルアーキテクチャ間で大きく異なる古いエビデンスを体系的に割引することを明らかにする。
固有の先入観はしばしば誤解されるが、更新メカニズム自体は構造化され原則化されたままである。
さらに、シミュレーションエージェントタスクでこれらの知見を検証し、計算コストを最小限に抑える方法を提案する。
関連論文リスト
- A Multi-Criteria Automated MLOps Pipeline for Cost-Effective Cloud-Based Classifier Retraining in Response to Data Distribution Shifts [0.0]
機械学習(ML)モデルの性能は、基礎となるデータ分布が時間とともに変化すると劣化することが多い。
MLOps(ML Operations)はしばしば手動であり、人間はモデルの再訓練と再デプロイのプロセスをトリガーする。
本稿では,データ分散の大幅な変化に応じて,ニューラルネットワークの再トレーニングに対処する自動MLOpsパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:22:14Z) - Simulation-based inference via telescoping ratio estimation for trawl processes [0.0]
本稿では,高速で高精度なMarkovベースの推論フレームワークを提案する。
チェビシェフ近似を用いて独立な後続サンプルを効率よく生成し,連鎖モンテカルロ法が混在しても正確な推論を可能にする。
エネルギー需要データに適用した柔軟な無限分割可能なモデルのクラスであるトロールプロセスにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-10-05T05:26:46Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。