論文の概要: Counting Clues: A Lightweight Probabilistic Baseline Can Match an LLM
- arxiv url: http://arxiv.org/abs/2512.12868v1
- Date: Sun, 14 Dec 2025 23:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.475506
- Title: Counting Clues: A Lightweight Probabilistic Baseline Can Match an LLM
- Title(参考訳): 軽量の確率的ベースラインがLSMにマッチする
- Authors: Furong Jia, Yuan Pu, Finn Guo, Monica Agrawal,
- Abstract要約: 周波数ベース確率ランク装置(FBPR)について紹介する。
FBPRは、大規模なコーパスによる概念診断の共起統計よりもスムーズなネイブベイズでオプションをスコア付けする。
歴史的に根ざした低複雑さのエキスパートシステムに類似したアプローチが、依然としてベンチマーク性能のかなりの部分を占めていることを示す。
- 参考スコア(独自算出の注目度): 3.599447860592914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel on multiple-choice clinical diagnosis benchmarks, yet it is unclear how much of this performance reflects underlying probabilistic reasoning. We study this through questions from MedQA, where the task is to select the most likely diagnosis. We introduce the Frequency-Based Probabilistic Ranker (FBPR), a lightweight method that scores options with a smoothed Naive Bayes over concept-diagnosis co-occurrence statistics from a large corpus. When co-occurrence statistics were sourced from the pretraining corpora for OLMo and Llama, FBPR achieves comparable performance to the corresponding LLMs pretrained on that same corpus. Direct LLM inference and FBPR largely get different questions correct, with an overlap only slightly above random chance, indicating complementary strengths of each method. These findings highlight the continued value of explicit probabilistic baselines: they provide a meaningful performance reference point and a complementary signal for potential hybridization. While the performance of LLMs seems to be driven by a mechanism other than simple frequency aggregation, we show that an approach similar to the historically grounded, low-complexity expert systems still accounts for a substantial portion of benchmark performance.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 複数選択型臨床診断ベンチマークで優れているが, その性能が根底にある確率的推論を反映しているかは不明である。
本研究は,最も可能性の高い診断を選定する作業を行うMedQAからの質問を通じて,これを研究する。
提案手法は,大口径コーパスの共起統計値に対して,スムーズなネイブベイズを用いて選択肢をスコアする軽量な手法である。
OLMoとLlamaの事前学習コーパスから共起統計が得られたとき、FBPRは同じコーパスで事前学習された対応するLLMと同等の性能を達成した。
直接LLM推論とFBPRは、主に異なる質問を正し、重複はランダムな確率よりわずかに上回っており、各手法の相補的な強みを示している。
これらの結果は、有意義な性能基準点と、潜在的なハイブリダイゼーションのための相補的な信号を提供する、明示的確率的ベースラインの継続的な価値を強調している。
LLMの性能は単純な周波数アグリゲーション以外のメカニズムによって駆動されているように思われるが、歴史的に根ざした低複雑さのエキスパートシステムに類似したアプローチがベンチマーク性能のかなりの部分を占めていることを示す。
関連論文リスト
- Can Linear Probes Measure LLM Uncertainty? [0.0]
不確実性定量化(UQ)は、自動意思決定などにおける大規模言語モデル(LLM)の信頼性向上のための重要な側面である。
ベイズ統計による原理的アプローチをとると、最も単純なモデル、すなわち線形回帰を利用するにもかかわらず、性能が向上することを示す。
分散特性の疎結合を同定することにより, LLMのグローバル不確実性レベルを推定し, 効率的なUQ手法を提案する。
論文 参考訳(メタデータ) (2025-10-05T09:14:57Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。