論文の概要: Semantic Uncertainty Quantification of Hallucinations in LLMs: A Quantum Tensor Network Based Method
- arxiv url: http://arxiv.org/abs/2601.20026v1
- Date: Tue, 27 Jan 2026 20:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.645754
- Title: Semantic Uncertainty Quantification of Hallucinations in LLMs: A Quantum Tensor Network Based Method
- Title(参考訳): LLMにおける幻覚の意味的不確かさの定量化:量子テンソルネットワークに基づく方法
- Authors: Pragatheeswaran Vipulanandan, Kamal Premaratne, Dilip Sarkar,
- Abstract要約: 大きな言語モデル(LLM)は強力な生成能力を示すが、相反に弱いままである。
本稿では,トークン列確率におけるアレタリック不確実性を考慮した量子物理学に基づく不確実性定量化フレームワークを提案する。
また、高い確実性、セマンティック・コヒーレントな出力を優先するエントロピー13戦略を導入し、決定が信頼性の低いエントロピー領域を強調する。
- 参考スコア(独自算出の注目度): 0.8399688944263844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit strong generative capabilities but remain vulnerable to confabulations, fluent yet unreliable outputs that vary arbitrarily even under identical prompts. Leveraging a quantum tensor network based pipeline, we propose a quantum physics inspired uncertainty quantification framework that accounts for aleatoric uncertainty in token sequence probability for semantic equivalence based clustering of LLM generations. This offers a principled and interpretable scheme for hallucination detection. We further introduce an entropy maximization strategy that prioritizes high certainty, semantically coherent outputs and highlights entropy regions where LLM decisions are likely to be unreliable, offering practical guidelines for when human oversight is warranted. We evaluate the robustness of our scheme under different generation lengths and quantization levels, dimensions overlooked in prior studies, demonstrating that our approach remains reliable even in resource constrained deployments. A total of 116 experiments on TriviaQA, NQ, SVAMP, and SQuAD across multiple architectures including Mistral-7B, Mistral-7B-instruct, Falcon-rw-1b, LLaMA-3.2-1b, LLaMA-2-13b-chat, LLaMA-2-7b-chat, LLaMA-2-13b, and LLaMA-2-7b show consistent improvements in AUROC and AURAC over state of the art baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) は強力な生成能力を示すが、同じプロンプトの下でも任意に変化する信頼できない出力に対して脆弱である。
量子テンソルネットワークに基づくパイプラインを応用し、LLM世代における意味等価性に基づくクラスタリングのためのトークンシーケンス確率におけるアレタリック不確実性を考慮した量子物理学に基づく不確実性量子化フレームワークを提案する。
これは幻覚検出の原理と解釈可能なスキームを提供する。
さらに、高い確実性、セマンティック・コヒーレントな出力を優先するエントロピー最大化戦略を導入し、LLM決定が信頼できない可能性があるエントロピー領域を強調し、人間の監視が保証された場合の実用的なガイドラインを提供する。
提案手法のロバスト性は, 従来研究で見過ごされ, 資源制約による展開においても信頼性が保たれていることが実証された。
Mistral-7B, Mistral-7B-instruct, Falcon-rw-1b, LLaMA-3.2-1b, LLaMA-2-13b-chat, LLaMA-2-7b-chat, LLaMA-2-13b, LLaMA-2-7bなど、TriviaQA, NQ, SVAMP, SQuADの合計116の実験は、最先端のベースラインに対するAUROCとAURACの一貫性のある改善を示している。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Uncertainty Quantification for Hallucination Detection in Large Language Models: Foundations, Methodology, and Future Directions [28.64896454455385]
大規模言語モデル (LLMs) は、もっともらしいが事実的に誤りな出力を生成する幻覚の傾向にある。
不確実性定量化(UQ)は、この問題に対処する中心的な研究方向として現れている。
幻覚検出におけるUQの役割について検討し、不確実性の定量化が信頼できない世代を識別するメカニズムを提供する。
論文 参考訳(メタデータ) (2025-10-14T00:49:04Z) - Can Linear Probes Measure LLM Uncertainty? [0.0]
不確実性定量化(UQ)は、自動意思決定などにおける大規模言語モデル(LLM)の信頼性向上のための重要な側面である。
ベイズ統計による原理的アプローチをとると、最も単純なモデル、すなわち線形回帰を利用するにもかかわらず、性能が向上することを示す。
分散特性の疎結合を同定することにより, LLMのグローバル不確実性レベルを推定し, 効率的なUQ手法を提案する。
論文 参考訳(メタデータ) (2025-10-05T09:14:57Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering [3.131352561462676]
大規模言語モデル(LLM)は、現実的な質問応答が可能なAIシステムの開発に寄与している。
難解な質問が提示されたとき、LSMの堅牢性をテストする既知の研究はない。
本稿では,多層難読化レベルのフレームワークであるObfusQAを紹介し,LLMの能力について検討する。
論文 参考訳(メタデータ) (2025-08-10T12:27:52Z) - Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs [5.161416961439468]
本研究では,textbfClusttextbfering に基づくsemtextbfantic contextbfsisttextbfency (textbfCleanse) を用いた効果的な不確実性推定手法を提案する。
LLaMA-7B, LLaMA-13B, LLaMA2-7B, Mistral-7Bの4つの市販モデルを用いて, 幻覚検出におけるクリーンスの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-19T14:48:24Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Knowledge Fusion of Chat LLMs: A Preliminary Technical Report [51.0178356903925]
チャットLLMの融合を実現するためにFuseLLMフレームワークを拡張し,FusionChatを実現する。
本研究は, 構造的, スケール的な光源LLMの知識融合を行い, 軽量微調整により, 同一構造と大きさの複数の目標LLMを導出する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-25T15:11:58Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。