論文の概要: Knowledge Dependency Estimation for Reliable Question Answering
- arxiv url: http://arxiv.org/abs/2605.28047v1
- Date: Wed, 27 May 2026 06:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.824412
- Title: Knowledge Dependency Estimation for Reliable Question Answering
- Title(参考訳): 信頼性の高い質問応答に対する知識依存度推定
- Authors: Chaodong Tong, Qi Zhang, Nannan Sun, Lei Jiang, Yanbing Liu,
- Abstract要約: 我々はemphknowledge依存性の推定について研究する
構造化されたランク認識型知識依存度推定器である textbfKnot を提案する。
- 参考スコア(独自算出の注目度): 11.800158247203312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable question answering requires identifying not only whether an answer is correct, but also which available knowledge the prediction depends on. In realistic LLM-based QA, this knowledge may come from context, retrieval, decomposition, or intermediate reasoning, forming a noisy and redundant candidate space rather than a clean gold evidence set. We study \emph{knowledge dependency estimation}: estimating the sensitivity of a fixed black-box QA model to different candidate knowledge units. The challenge is to obtain fine-grained dependency scores without exhaustive test-time perturbation while modeling redundancy, substitutability, and complementarity. We propose \textbf{Knot}, a structured rank-aware knowledge dependency estimator. Knot learns from subset-level counterfactual supervision, models subset sensitivity through coverage over latent dependency factors, and derives rank-aware unit scores to identify influential candidates. Across multiple-choice and generative QA benchmarks, Knot outperforms all compared baselines in subset-sensitivity prediction and produces more faithful unit rankings than deployable baselines without extra QA-model calls; when used for practical risk screening, its dependency scores help flag error-prone QA predictions early.
- Abstract(参考訳): 信頼性の高い質問に答えるには、答えが正しいかどうかだけでなく、予測がどの知識に依存しているかを特定する必要がある。
現実的なLLMベースのQAでは、この知識は文脈、検索、分解、中間的推論から生まれ、クリーンなゴールドエビデンスではなく、ノイズの多い冗長な候補空間を形成する。
固定ブラックボックスQAモデルの感度を異なる候補知識単位に推定する。
課題は、冗長性、置換性、相補性をモデル化しながら、徹底的なテスト時間摂動を伴わずに、きめ細かい依存性スコアを得ることである。
構造化されたランク認識型知識依存度推定器である「textbf{Knot}」を提案する。
Knotはサブセットレベルのカウンターファクトの監視から学び、潜伏する依存要因のカバレッジを通じてサブセットの感度をモデル化し、影響力のある候補を特定するためにランク認識単位スコアを導出する。
多重選択および生成型QAベンチマーク全体で、Knotはサブセット感度予測において比較されたベースラインをすべて上回り、追加のQAモデル呼び出しなしでデプロイ可能なベースラインよりも忠実なユニットランキングを生成する。
関連論文リスト
- Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering [7.1559850008795385]
大きな言語モデル(LLM)は質問回答(QA)設定で一般的に使用される。
既存のUQアプローチは、科学的QAでは弱い検証が残っている。
推論要求QAにおけるUQ指標を評価するための,最初の大規模ベンチマークを紹介する。
論文 参考訳(メタデータ) (2026-01-30T20:02:34Z) - Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering [29.4458902836278]
本稿では,与えられたモデルの予測分布と未知の真の分布との相互エントロピーとして定義されたタスクに依存しないトークンレベルの不確実性尺度を提案する。
我々は不確実性の上限を導出し、与えられたモデルの隠された表現において意味的特徴ギャップとして解釈できることを示す。
この一般的なフレームワークを文脈的QAタスクに適用し、文脈信頼、文脈理解、誠実さの3つの特徴がこのギャップを近似していると仮定する。
論文 参考訳(メタデータ) (2025-10-03T02:09:25Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Uncertainty Quantification in Retrieval Augmented Question Answering [45.573346610161195]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。
我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文 参考訳(メタデータ) (2025-02-25T11:24:52Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。