論文の概要: Relevant Is Not Warranted: Evidence-Force Calibration for Cited RAG
- arxiv url: http://arxiv.org/abs/2605.28044v1
- Date: Wed, 27 May 2026 06:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.821467
- Title: Relevant Is Not Warranted: Evidence-Force Calibration for Cited RAG
- Title(参考訳): 関連性は警告されない。Citted RAGのEvidence-Force Calibration
- Authors: Pin Qian, Su Wang, Xiaoyuan Wang, Yihang Chen, Wenxuan Xu, Qiaolin Yu, Shuhuai Lin, Sipeng Zhang, Junxian You, Xinpeng Wei,
- Abstract要約: 我々は,エビデンス・フォース・キャリブレーションのためのコントラストストレステストであるForceBENCHを紹介する。
各項目は引用された節を固定し、エビデンス校正されたクレームと局所的な力評価された変種をペアに持つ。
ヘッドライン実験は固定された局所フィルター付き198ペア評価セットを使用する。
- 参考スコア(独自算出の注目度): 6.113159481005088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cited RAG evaluation often treats visible sources as a grounding signal, but a real, topically relevant citation can still under-warrant the attached wording. We study this diagnostic failure as citation laundering: a related source is presented as warrant for an over-strong claim. We introduce FORCEBENCH, a contrastive stress test for evidence-force calibration. Each item holds a cited passage fixed and pairs an evidence-calibrated claim with a localized force-raised variant across five operational axes: relation, modality, scope, temporal validity, and numeric specificity. A calibrated evaluator should score the evidence-calibrated claim higher. Headline experiments use a fixed, locality-filtered 198-pair evaluation set. A citation-presence sanity check is uninformative by design; token and entity overlap still violate monotonicity on 32.8--36.4% of pairs. Across four reported model judges, standard generic support prompting is insufficient for this force-calibration stress test (aggregate MVR 47.2%), while explicit warrant-strength prompting lowers MVR to 24.5% but remains imperfect. We release the benchmark, prompts, outputs, and plug-in pipeline so citation evaluators can report monotonicity violation rate and force sensitivity alongside conventional support metrics.
- Abstract(参考訳): サイテッドRAG評価は、しばしば可視光源を接地信号として扱うが、真のトポロジカルな引用は、接続された単語を過度に警告する可能性がある。
我々は,この診断失敗を引用洗浄として検討し,関連する資料を強大な主張の根拠として提示する。
我々は,エビデンス・フォース・キャリブレーションのためのコントラストストレステストであるForceBENCHを紹介する。
各項目は引用された節を固定し、関係性、モダリティ、スコープ、時間的妥当性、数値的特異性(英語版)の5つの操作軸に局所的な力評価された変種とエビデンス校正されたクレームをペアに持つ。
校正された評価者は、証拠校正されたクレームを高く評価すべきである。
ヘッドライン実験は固定された局所フィルター付き198ペア評価セットを使用する。
トークンとエンティティの重なり合いは、ペアの32.8-36.4%で単調性に反する。
モデル審査員4名中、この強制校正ストレステスト(MVR 47.2%を集約する)では標準的な一般的な支援は不十分であり、明確な保証力はMVRを24.5%まで下げるが、依然として不十分である。
ベンチマーク、プロンプト、アウトプット、プラグインパイプラインを公開し、引用評価器が従来のサポート指標と並行してモノトニック性違反率と強制感度を報告できるようにします。
関連論文リスト
- Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction [4.273094752480624]
本稿では,対話的証明理論に基づく推論時間プロトコルであるPVDを導入する。
PVDは回答と構造化された信頼判定の両方を生成し、システムは不確実なケースを棄却しながら高信頼の回答を報告できる。
論文 参考訳(メタデータ) (2026-05-24T15:23:27Z) - Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation [0.0]
混在した証拠は、ある主張を支持し、別の主張の条件を必要とし、第三の主張に矛盾する可能性がある。
我々は、クレーム選択応答を検証可能なクレームに検証し、回収された証拠に対して評価し、インテントを意識したセレクタによって完全な、部分的、紛争、棄却にマッピングする。
結果として生じるインターフェースは、アクションラベル予測と、混在する証拠の下でのエビデンスリンクされたクレーム選択を分離する。
論文 参考訳(メタデータ) (2026-05-21T03:29:50Z) - Reward Hacking in Rubric-Based Reinforcement Learning [23.418394508756464]
そこでは,ルールをトレーニング検証器に対して最適化するが,フロンティアの3人の審査員の家族間パネルに対して評価を行う。
我々のフレームワークは、検証失敗とルーブリック設計の制限という2つの違いの源を分離している。
医学領域と科学領域全体において、弱い検証器は参照検証器に転送されない大きなプロキシ・リワードゲインを生成する。
論文 参考訳(メタデータ) (2026-05-12T17:54:25Z) - Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。
本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文 参考訳(メタデータ) (2026-05-06T03:28:30Z) - FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文 参考訳(メタデータ) (2026-04-05T11:45:22Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - From Relevance to Utility: Evidence Retrieval with Feedback for Fact Verification [118.03466985807331]
我々は、FVの関連性よりも、クレーム検証者が取得した証拠から導出する実用性に焦点を当てる必要があると論じる。
本稿では,エビデンス検索プロセスの最適化に,クレーム検証器からのフィードバックを取り入れたフィードバックベースのエビデンス検索手法(FER)を提案する。
論文 参考訳(メタデータ) (2023-10-18T02:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。