論文の概要: GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.07925v1
- Date: Tue, 09 Sep 2025 17:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.411271
- Title: GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models
- Title(参考訳): genUINE:大規模言語モデルのためのグラフ強化マルチレベル不確実性推定
- Authors: Tuo Wang, Adithya Kulkarni, Tyler Cody, Peter A. Beling, Yujun Yan, Dawei Zhou,
- Abstract要約: 大規模言語モデルの信頼性を高めるためには不確実性推定が不可欠である。
大規模言語モデルに対するグラフエンハンスmUltiレベルの不確実性推定法を提案する。
- 参考スコア(独自算出の注目度): 15.035039054096188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty estimation is essential for enhancing the reliability of Large Language Models (LLMs), particularly in high-stakes applications. Existing methods often overlook semantic dependencies, relying on token-level probability measures that fail to capture structural relationships within the generated text. We propose GENUINE: Graph ENhanced mUlti-level uncertaINty Estimation for Large Language Models, a structure-aware framework that leverages dependency parse trees and hierarchical graph pooling to refine uncertainty quantification. By incorporating supervised learning, GENUINE effectively models semantic and structural relationships, improving confidence assessments. Extensive experiments across NLP tasks show that GENUINE achieves up to 29% higher AUROC than semantic entropy-based approaches and reduces calibration errors by over 15%, demonstrating the effectiveness of graph-based uncertainty modeling. The code is available at https://github.com/ODYSSEYWT/GUQ.
- Abstract(参考訳): 大規模言語モデル(LLM)の信頼性を高めるためには不確実性推定が不可欠である。
既存のメソッドは、しばしばセマンティックな依存関係を見落とし、生成されたテキスト内の構造的関係を捉えるのに失敗するトークンレベルの確率測定に依存する。
グラフエンハンス mUlti-level uncertaINty Estimation for Large Language Models - 依存解析木と階層グラフプールを利用して不確かさの定量化を行う構造対応フレームワーク。
教師付き学習を取り入れることで、GeneUINEは意味的および構造的関係を効果的にモデル化し、信頼性評価を改善する。
NLPタスクにわたる大規模な実験により、GeneUINEは意味エントロピーに基づくアプローチよりも最大29%高いAUROCを実現し、キャリブレーション誤差を15%以上削減し、グラフベースの不確実性モデリングの有効性を示す。
コードはhttps://github.com/ODYSSEYWT/GUQ.comで入手できる。
関連論文リスト
- Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。
提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Harnessing the Power of Large Language Model for Uncertainty Aware Graph Processing [24.685942503019948]
本稿では,大言語モデル(LLM)のパワーを生かした新しい手法を提案する。
筆者らは,2つのグラフ処理タスク,すなわち知識グラフ補完とグラフ分類について実験を行った。
LLM が生成した回答の正確性を予測するため,10 つのデータセットのうち 7 つに対して 0.8 以上の AUC を達成した。
論文 参考訳(メタデータ) (2024-03-31T07:38:39Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。