Fugu-MT 論文翻訳(概要): LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation

論文の概要: LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation

arxiv url: http://arxiv.org/abs/2407.00994v2
Date: Mon, 8 Jul 2024 04:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 00:40:30.980555
Title: LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation
Title（参考訳）: ディレクショナルエンターメントグラフとクレームレベル応答増大によるLLM不確かさの定量化
Authors: Longchao Da, Tiejin Chen, Lu Cheng, Hua Wei,
Abstract要約: 大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
参考スコア（独自算出の注目度）: 5.255129053741665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Large language models (LLMs) have showcased superior capabilities in sophisticated tasks across various domains, stemming from basic question-answer (QA), they are nowadays used as decision assistants or explainers for unfamiliar content. However, they are not always correct due to the data sparsity in specific domain corpus, or the model's hallucination problems. Given this, how much should we trust the responses from LLMs? This paper presents a novel way to evaluate the uncertainty that captures the directional instability, by constructing a directional graph from entailment probabilities, and we innovatively conduct Random Walk Laplacian given the asymmetric property of a constructed directed graph, then the uncertainty is aggregated by the derived eigenvalues from the Laplacian process. We also provide a way to incorporate the existing work's semantics uncertainty with our proposed layer. Besides, this paper identifies the vagueness issues in the raw response set and proposes an augmentation approach to mitigate such a problem, we conducted extensive empirical experiments and demonstrated the superiority of our proposed solutions.
Abstract（参考訳）: 大規模言語モデル(LLM)は、基本的な質問応答(QA)から派生して、様々な領域にわたる高度なタスクにおいて優れた能力を示しており、現在では、不慣れなコンテンツのための意思決定アシスタントや説明役として使われている。しかし、特定のドメインのコーパスやモデルの幻覚の問題により、必ずしも正しいとは限らない。これを考えると、LLMからの回答をどの程度信頼すべきなのでしょうか? そこで本論文では,非対称な有向グラフの非対称性を持つランダムウォークラプラシアン(Random Walk Laplacian)を考案し,その不確実性はラプラシアン過程から導出した固有値によって集約されることを示す。また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。さらに,本論文では,生の応答集合における曖昧さの問題を識別し,そのような問題を緩和するための拡張手法を提案し,実験実験を行い,提案手法の優位性を示した。

関連論文リスト

WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文参考訳（メタデータ） (2025-07-22T03:21:48Z)
Towards Large Language Models with Self-Consistent Natural Language Explanations [11.085839471231552]
大きな言語モデル(LLM)は、解釈容易なパスを提供するようだ。しかし、研究によると、これらのポストホックな説明は真の決定過程を誤って表現していることが多い。
論文参考訳（メタデータ） (2025-06-09T08:06:33Z)
The Hallucination Tax of Reinforcement Finetuning [11.558277688244354]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための標準アプローチとなっている。我々は, RFT の批判的副作用について検討し, 幻覚税とはすなわち, モデルが幻覚応答を確実に生成する原因となる拒絶行動の悪化について述べる。以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。
論文参考訳（メタデータ） (2025-05-20T06:36:45Z)
Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs [14.683552774931751]
大規模言語モデル (LLM) は、膨大な事実知識を符号化することで、様々なタスクにまたがる顕著な性能を示した。彼らはまだ幻覚を起こす傾向があり、誤った情報や誤解を招く情報を生み出し、しばしば高い不確実性を伴う。 LLMにおける外部不確実性と内部不確実性の両方を定量化する新しい尺度であるSemantic Volumeを紹介する。
論文参考訳（メタデータ） (2025-02-28T17:09:08Z)
SUGAR: Leveraging Contextual Confidence for Smarter Retrieval [28.552283701883766]
セマンティック不確実性誘導適応検索(SUGAR)について紹介する。我々は、文脈に基づくエントロピーを利用して、検索するかどうかを積極的に決定し、シングルステップとマルチステップの検索を更に決定する。実験の結果,意味的不確実性推定によって導かれる選択探索により,多様な質問応答タスクのパフォーマンスが向上し,より効率的な推論が達成された。
論文参考訳（メタデータ） (2025-01-09T01:24:59Z)
On Subjective Uncertainty Quantification and Calibration in Natural Language Generation [2.622066970118316]
大規模言語モデルは多くの場合、不確実な定量化が困難になるような自由形式の応答を生成する。この研究はベイズ決定論の観点からこれらの課題に対処する。本稿では,モデルの主観的不確実性とそのキャリブレーションを原理的に定量化する方法について論じる。提案手法はブラックボックス言語モデルに適用できる。
論文参考訳（メタデータ） (2024-06-07T18:54:40Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。定式化の利点を実証する一連の実験を行う。
論文参考訳（メタデータ） (2024-06-04T17:58:18Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。本稿では,これらの課題に対処する新しい枠組みを提案する。意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文参考訳（メタデータ） (2024-05-22T17:13:49Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Quantifying Uncertainty in Natural Language Explanations of Large Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文参考訳（メタデータ） (2023-11-06T21:14:40Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。