論文の概要: CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering
- arxiv url: http://arxiv.org/abs/2603.16091v1
- Date: Tue, 17 Mar 2026 03:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.08672
- Title: CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering
- Title(参考訳): CounterRefine: Factual Question Answering における推論時間知識修復のための解答記述型カウンセビデンス検索
- Authors: Tianyi Huang, Ying Kai Deng,
- Abstract要約: 検索地上質問応答のための軽量な推論時間修復層であるCounterRefineを提案する。
CounterRefineは、最初に検索されたエビデンスから短い回答を生成し、その後、追加のサポートを集め、そのドラフト回答に条件付けられたフォローアップクエリと矛盾するエビデンスを集めます。
完全なSimpleQAベンチマークでは、CounterRefineは一致したGPT-5ベースラインRAGを5.8ポイント改善し、73.1%の精度で、報告された1ショットのGPT-5.4スコアを約40ポイント上回る。
- 参考スコア(独自算出の注目度): 1.1279808969568255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In factual question answering, many errors are not failures of access but failures of commitment: the system retrieves relevant evidence, yet still settles on the wrong answer. We present CounterRefine, a lightweight inference-time repair layer for retrieval-grounded question answering. CounterRefine first produces a short answer from retrieved evidence, then gathers additional support and conflicting evidence with follow-up queries conditioned on that draft answer, and finally applies a restricted refinement step that outputs either KEEP or REVISE, with proposed revisions accepted only if they pass deterministic validation. In effect, CounterRefine turns retrieval into a mechanism for testing a provisional answer rather than merely collecting more context. On the full SimpleQA benchmark, CounterRefine improves a matched GPT-5 Baseline-RAG by 5.8 points and reaches a 73.1 percent correct rate, while exceeding the reported one-shot GPT-5.4 score by roughly 40 points. These findings suggest a simple but important direction for knowledgeable foundation models: beyond accessing evidence, they should also be able to use that evidence to reconsider and, when necessary, repair their own answers.
- Abstract(参考訳): 実際には、多くのエラーはアクセスの失敗ではなくコミットメントの失敗である:システムは関連する証拠を回収するが、間違った答えに落ち着く。
検索地上質問応答のための軽量な推論時間修復層であるCounterRefineを提案する。
CounterRefineはまず、検索された証拠から短い回答を生成し、その後、そのドラフト回答に条件付されたフォローアップクエリで追加の支持と矛盾する証拠を集め、最終的にKEEPまたはREVISEを出力する制限された改善ステップを適用し、決定論的検証をパスした場合のみ、提案された修正が受け入れられる。
事実上、CounterRefineは検索を、単により多くのコンテキストを収集するのではなく、一時的な回答をテストするメカニズムに変える。
完全なSimpleQAベンチマークでは、CounterRefineは一致したGPT-5ベースラインRAGを5.8ポイント改善し、73.1%の精度で、報告された1ショットのGPT-5.4スコアを約40ポイント上回る。
これらの知見は、知識に富んだ基礎モデルにとって単純だが重要な方向を示唆している。
関連論文リスト
- Inferential Question Answering [67.54465021408724]
新しいタスクであるInferential QAを導入します。これは、答えをサポートするパスから答えを推測するためにモデルに挑戦するものです。
そこで本研究では,7,401問と2.4M節からなるQUITデータセットを構築した。
我々は,従来のQAタスクに有効な手法が推論QAに苦しむことを示し,レトリバーは性能が低下し,リランカーは利得が制限され,微調整は不整合の改善をもたらすことを示した。
論文 参考訳(メタデータ) (2026-02-01T14:02:43Z) - QUARK: Robust Retrieval under Non-Faithful Queries via Query-Anchored Aggregation [2.505352949111876]
QUARKは、非忠実なクエリの下で堅牢な検索を行うためのトレーニング不要のフレームワークである。
この設計により、QUIRKは堅牢性を犠牲にすることなくリコールとランキング品質を改善することができる。
論文 参考訳(メタデータ) (2026-01-28T21:14:49Z) - Retrieve-Refine-Calibrate: A Framework for Complex Claim Fact-Checking [32.6738019397553]
大規模言語モデル(LLM)に基づくRetrieve-Refine-Calibrate(RRC)フレームワークを提案する。
特に、このフレームワークは、まずクレームに記載されたエンティティを特定し、それらに関連する証拠を検索する。
そして、無関係な情報を減らすためのクレームに基づいて、回収された証拠を精査する。
最後に、信頼性の低い予測を再評価することで検証プロセスを校正する。
論文 参考訳(メタデータ) (2026-01-23T08:48:52Z) - Adaptive Retrieval for Reasoning-Intensive Retrieval [60.30588731127791]
Bridgeドキュメントは、推論プロセスに寄与するが、初期クエリに直接関連しないドキュメントである。
既存の推論ベースのリランカパイプラインは、これらのドキュメントをランキングで表示しようとするが、バウンドリコールに悩まされる。
適応検索のための高密度フィードバック信号として、推論計画を再取得することで、このギャップを埋めるフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T05:46:50Z) - NeoQA: Evidence-based Question Answering with Generated News Events [53.85274258429368]
この問題に対処するために設計されたベンチマークであるNeoQAを紹介します。
我々は,エビデンスに基づく質問応答を評価するための新しいプラットフォームとして,データセットを提案する。
論文 参考訳(メタデータ) (2025-05-09T10:51:29Z) - Retrieval-Augmented Generation by Evidence Retroactivity in LLMs [19.122314663040726]
Retroactive Retrieval-Augmented Generation(Retroactive Retrieval-Augmented Generation)は、レトロアクティブ推論パラダイムを構築するための新しいフレームワークである。
RetroRAGは証拠を修正・更新し、推論チェーンを正しい方向にリダイレクトする。
経験的評価は、RetroRAGが既存の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2025-01-07T08:57:42Z) - Atomic Fact Decomposition Helps Attributed Question Answering [29.67882325906939]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - From Relevance to Utility: Evidence Retrieval with Feedback for Fact Verification [118.03466985807331]
我々は、FVの関連性よりも、クレーム検証者が取得した証拠から導出する実用性に焦点を当てる必要があると論じる。
本稿では,エビデンス検索プロセスの最適化に,クレーム検証器からのフィードバックを取り入れたフィードバックベースのエビデンス検索手法(FER)を提案する。
論文 参考訳(メタデータ) (2023-10-18T02:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。