論文の概要: How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms
- arxiv url: http://arxiv.org/abs/2603.08274v1
- Date: Mon, 09 Mar 2026 11:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.88881
- Title: How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms
- Title(参考訳): 文書Q&AシナリオにおけるLLMの幻覚効果
- Authors: JV Roig,
- Abstract要約: RIKERは、人間のアノテーションを使わずに決定論的スコアリングを可能にする基礎的第一評価手法である。
その結果,最も優れたモデルでさえ,非自明な速度で回答を作成できることがわかった。
結果はハードウェアプラットフォーム間で一貫性があり、デプロイメントの決定がハードウェアに依存していないことを確認する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How much do large language models actually hallucinate when answering questions grounded in provided documents? Despite the critical importance of this question for enterprise AI deployments, reliable measurement has been hampered by benchmarks that rely on static datasets vulnerable to contamination, LLM-based judges with documented biases, or evaluation scales too small for statistical confidence. We address this gap using RIKER, a ground-truth-first evaluation methodology that enables deterministic scoring without human annotation. Across 35 open-weight models, three context lengths (32K, 128K, and 200K tokens), four temperature settings, and three hardware platforms (NVIDIA H200, AMD MI300X, and Intel Gaudi 3), we conducted over 172 billion tokens of evaluation - an order of magnitude beyond prior work. Our findings reveal that: (1) even the best-performing models fabricate answers at a non-trivial rate - 1.19% at best at 32K, with top-tier models at 5 - 7% - and fabrication rises steeply with context length, nearly tripling at 128K and exceeding 10% for all models at 200K; (2) model selection dominates all other factors, with overall accuracy spanning a 72-percentage-point range and model family predicting fabrication resistance better than model size; (3) temperature effects are nuanced - T=0.0 yields the best overall accuracy in roughly 60% of cases, but higher temperatures reduce fabrication for the majority of models and dramatically reduce coherence loss (infinite generation loops), which can reach 48x higher rates at T=0.0 versus T=1.0; (4) grounding ability and fabrication resistance are distinct capabilities - models that excel at finding facts may still fabricate facts that do not exist; and (5) results are consistent across hardware platforms, confirming that deployment decisions need not be hardware-dependent.
- Abstract(参考訳): 大きな言語モデルは、提供された文書に埋もれた質問に答えるときに、実際に幻覚を引き起こすのか?
エンタープライズAIデプロイメントにおいてこの問題が重要視されているにもかかわらず、信頼性測定は汚染に弱い静的データセットに依存するベンチマークや、文書化されたバイアスを持つLCMベースの審査員、あるいは統計的信頼性のために評価尺度が小さすぎることで妨げられている。
RIKERは,人間のアノテーションを使わずに決定論的スコアリングを可能にする基礎的トラストファースト評価手法である。
35以上のオープンウェイトモデル,3つのコンテキスト長(32K,128K,200Kトークン),4つの温度設定,3つのハードウェアプラットフォーム(NVIDIA H200,AMD MI300X,Intel Gaudi3)に対して,前処理以上の172億以上の評価トークンを実行しました。
以上の結果から,(1) 最高の性能のモデルであっても,32K の非自明な速度で 1.19% の回答を生成できる,(2) 最上位モデルでは 5 - 7% の確率で上位モデルでは 128K に近づき,全モデルでは 10% に近づき,(2) モデル選択が他のすべての要因を支配している,(2) 72 パーセントのポイント範囲とモデルファミリーで,モデルサイズよりも製造抵抗を予測できる,(3) 温度効果は ニュアンスド – T=0.0 は 約60% のケースで最高の総合的精度を達成できるが,より高い温度では,モデルの大部分に対する製造が減少し,コヒーレンス損失(一定の生成ループ)が劇的に減少し,T=0.00 の確率で48倍に向上し,T=0.0 1.0 の精度が向上する,(2) ハードウェアプラットフォーム全体に依存すること,(5) ファクタリングの能力は,ハードウェアプラットフォーム上では不整合性であることが確認できる,といった結果が得られた。
関連論文リスト
- Optimizing LSTM Neural Networks for Resource-Constrained Retail Sales Forecasting: A Model Compression Study [0.0]
本稿では,LSTMモデル圧縮について,隠蔽ユニットの数を128から16に減らして検討する。
実験により、隠されたLSTMユニットの数を64に下げることは、同じレベルの精度を維持しながら改善することを示した。
論文 参考訳(メタデータ) (2026-01-02T01:35:49Z) - Do Large Language Models Know What They Don't Know? Kalshibench: A New Benchmark for Evaluating Epistemic Calibration via Prediction Markets [0.0]
十分に校正されたモデルは、実際の正確さと一致した信頼を表現するべきです -- 80%の信頼性を主張する場合には、80%の時間を正すべきです。
我々はCFTCが規制する取引所であるKalshiから300の予測市場質問のベンチマークであるtextbfKalshiBenchを紹介した。
我々は、Claude Opus 4.5, GPT-5.2, DeepSeek-V3.2, Qwen3-235B, Kimi-K2 の5つのフロンティアモデルを評価し、全モデルにまたがるテキストの過信を求める。
論文 参考訳(メタデータ) (2025-12-17T23:23:06Z) - A Benchmark of Causal vs Correlation AI for Predictive Maintenance [0.0]
本研究では,1万台のCNCマシンを用いて,ベースライン統計手法から公式因果推論手法まで,8つの予測モデルを評価する。
公式因果推論モデル(L5)は、年間116万USD(70.2%の削減)のコスト削減を達成し、相関ベースの決定木モデル(L3)を年間約80,000USDで上回った。
論文 参考訳(メタデータ) (2025-11-30T23:59:37Z) - Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文 参考訳(メタデータ) (2025-04-15T17:02:15Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。