論文の概要: What Makes a Medical Checker Trainable? Diagnosing Signal Collapse and Reward Hacking in Checker-Guided RAG for Biomedical QA
- arxiv url: http://arxiv.org/abs/2605.25988v1
- Date: Mon, 25 May 2026 16:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.457712
- Title: What Makes a Medical Checker Trainable? Diagnosing Signal Collapse and Reward Hacking in Checker-Guided RAG for Biomedical QA
- Title(参考訳): 医療チェッカーのトレーニングとは何か? : バイオメディカルQAのためのチェッカーガイド付きRAGにおける信号崩壊とリワードハックの診断
- Authors: Yuelyu Ji, Min Gu Kwak, Hang Zhang, Xizhi Wu, Chenyu Li, Yanshan Wan,
- Abstract要約: 医療RAGはエビデンスベースのクレームを必要とするため、クレームレベルのNLIチェッカーを検索強化されたRLに接続するのは直感的である。
NLIチェッカーのバックエンドをGRPO訓練医療RAGエージェント内のプロセス報酬として比較した。
- 参考スコア(独自算出の注目度): 6.163604976615509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical RAG needs evidence-grounded claims, so plugging a claim-level NLI checker into retrieval-augmented RL is intuitive. \textbf{We find that the checker's \emph{output distribution} during training, not its held-out accuracy, decides whether it provides trainable gradient.} We compare four NLI checker back-ends as process rewards inside a GRPO-trained medical RAG agent (Qwen2.5-7B, replicated on Qwen3-4B and Llama-3.1-8B) across four held-out medical QA benchmarks. Three diagnostic findings emerge. \textbf{(i)} Signal collapse is log-prob-specific: LLM log-probability scoring labels over 97\% of claims neutral -- collapsing the RL gradient to zero -- while a calibrated MedNLI classifier scores the same pairs non-degenerately. \textbf{(ii)} Moderate signal beats strong signal on answer quality: a strong proprietary checker triggers a three-step reward-hacking cascade -- ultra-short answers, search avoidance, language collapse -- so a moderate-signal local classifier trains a higher-quality model (\textbf{+12\% BERTScore over zero-shot, no GPT dependency}). \textbf{(iii)} Signal strength is policy-dependent: the same checker registers as moderate on one policy but strong on another without triggering the cascade end-state. We frame these as boundary conditions for verifier-as-reward systems.
- Abstract(参考訳): 医療RAGはエビデンスベースのクレームを必要とするため、クレームレベルのNLIチェッカーを検索強化されたRLに接続するのは直感的である。
トレーニング中のチェッカーの \emph{output distribution} は、保持された精度ではなく、トレーニング可能な勾配を提供するかどうかを決定する。
GRPOをトレーニングした医療用RAGエージェント(Qwen2.5-7B、Qwen3-4BとLlama-3.1-8B)の4つのQAベンチマークにおいて,NLIチェッカーのバックエンドをプロセス報酬として比較した。
3つの診断所見が出現する。
\textbf{
LLM log-probability score labels over 97\% of claims neutral -- collapsing the RL gradient to zero -- while calibrated MedNLI classificationifiers the same pairs non-degenerately。
\textbf{
強力なプロプライエタリチェッカーが3ステップの報酬ハッキングカスケードをトリガーする -- ウルトラショートな回答、検索回避、言語崩壊 -- なので、中程度の信号のローカル分類器は、高品質なモデルを訓練する(GPTに依存しないゼロショット上の\textbf{+12\% BERTScore)。
\textbf{
(iii)信号強度はポリシーに依存しており、同じチェッカーは1つのポリシーでは適度に登録されるが、カスケードエンドステートをトリガーすることなく他のポリシーでは強い。
我々はこれらを検証器・アズ・リワード系の境界条件とする。
関連論文リスト
- What Are We Actually Decoding? Source Attribution for Non-Invasive Brain-to-Language Retrieval [42.66754319854329]
我々は,刺激同期MEG-to-audio検索を監査フレームワークとして再放送した。
構造的ショートカット、ウィンドウレベルの刺激ロックされたエビデンス、ウィンドウ間のコンテキストアグリゲーションを使用します。
これらの結果は、脳から言語へのパフォーマンスは、単に報告されるのではなく、ソース属性であるべきだことを示唆している。
論文 参考訳(メタデータ) (2026-05-23T11:23:39Z) - Needle-in-RAG: Prompt-Conditioned Character-Level Traceback of Poisoned Spans in Retrieved Evidence [4.039934762896615]
RAGCharacterは、2パスの法医学的なフレームワークで、具体的な誤生成イベントのために責任ある回収されたスパンをローカライズする。
RAGおよび現在のRAGCharacterにおけるブラックボックス文字レベルの毒の追跡について検討した。
論文 参考訳(メタデータ) (2026-05-03T08:42:29Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Deep Omni-supervised Learning for Rib Fracture Detection from Chest
Radiology Images [41.62893318123283]
ディープラーニング(DL)に基づくリブ骨折検出は、死亡を予防し、患者の予後を改善する上で重要な役割を担っている。
DLベースのオブジェクト検出モデルは、大量のバウンディングボックスアノテーションを必要とします。
医用データの注釈付けは時間がかかり専門知識が要求されるため、大量の細かい注釈を得られることは極めて不可能である。
我々は,ORF-Netv2という新しいオブジェクト検出ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-23T05:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。