論文の概要: Negation is Not Semantic: Diagnosing Dense Retrieval Failure Modes for Trade-offs in Contradiction-Aware Biomedical QA
- arxiv url: http://arxiv.org/abs/2603.17580v1
- Date: Wed, 18 Mar 2026 10:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.650893
- Title: Negation is Not Semantic: Diagnosing Dense Retrieval Failure Modes for Trade-offs in Contradiction-Aware Biomedical QA
- Title(参考訳): 否定は意味的ではない: 対照的なバイオメディカルQAにおけるトレードオフのためのDense Retrieval failure Modeの診断
- Authors: Soumya Ranjan Sahoo, Gagan N., Sanand Sasidharan, Divya Bharti,
- Abstract要約: 大言語モデル (LLMs) は質問応答において強い能力を示してきたが、検証不可能なクレームを生成する傾向は、臨床環境において重大なリスクをもたらす。
これらのリスクを軽減するため、TREC 2025 BioGenトラックは、矛盾する証拠を明示的に提示する根拠のついた回答を義務付けている。
本稿では、SciFactデータセットを用いて、検索アーキテクチャを体系的に最適化するプロキシベースの開発フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0330395403064265
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in biomedical question answering, yet their tendency to generate plausible but unverified claims poses serious risks in clinical settings. To mitigate these risks, the TREC 2025 BioGen track mandates grounded answers that explicitly surface contradictory evidence (Task A) and the generation of narrative driven, fully attributed responses (Task B). Addressing the absence of target ground truth, we present a proxy-based development framework using the SciFact dataset to systematically optimize retrieval architectures. Our iterative evaluation revealed a "Simplicity Paradox": complex adversarial dense retrieval strategies failed catastrophically at contradiction detection (MRR 0.023) due to Semantic Collapse, where negation signals become indistinguishable in vector space. We further identify a Retrieval Asymmetry: filtering dense embeddings improves contradiction detection but degrades support recall, compromising reliability. We resolve this via a Decoupled Lexical Architecture built on a unified BM25 backbone, balancing semantic support recall (0.810) with precise contradiction surfacing (0.750). This approach achieves the highest Weighted MRR (0.790) on the proxy benchmark while remaining the only viable strategy for scaling to the 30 million document PubMed corpus. For answer generation, we introduce Narrative Aware Reranking and One-Shot In-Context Learning, improving citation coverage from 50% (zero-shot) to 100%. Official TREC results confirm our findings: our system ranks 2nd on Task A contradiction F1 and 3rd out of 50 runs on Task B citation coverage (98.77%), achieving zero citation contradict rate. Our work transforms LLMs from stochastic generators into honest evidence synthesizers, showing that epistemic integrity in biomedical AI requires precision and architectural scalability isolated metric optimization.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, バイオメディカルな質問応答において強い能力を示したが, 検証不可能な主張を生み出す傾向は臨床的に重大なリスクをもたらす。
これらのリスクを軽減するため、TREC 2025 BioGenトラックは、矛盾する証拠(Task A)と物語駆動の完全な応答(Task B)を明示的に表す答えを定めている。
そこで本研究では,SciFactデータセットを用いて,検索アーキテクチャを体系的に最適化するプロキシベースの開発フレームワークを提案する。
我々の反復的評価では「単純パラドックス(Simplicity Paradox)」が示され、複雑な対向性高密度検索戦略はセマンティック崩壊による矛盾検出(MRR 0.023)で破滅的に失敗し、ベクトル空間では否定信号が識別不能となる。
密埋め込みをフィルタリングすることで矛盾検出が向上するが、リコールのサポートが低下し、信頼性が向上する。
我々は、BM25のバックボーンを統一したデカップリングレキシカルアーキテクチャを用いて解決し、セマンティックサポートリコール(0.810)と正確な矛盾を克服する(0.750)。
このアプローチは、プロキシベンチマークで最も高い重み付きMRR (0.790) を達成すると同時に、3000万のドキュメントPubMedコーパスへのスケーリングのための唯一の実行可能な戦略を保っている。
回答生成にはNarrative Aware Re rankとOne-Shot In-Context Learningを導入し、引用カバレッジを50%(ゼロショット)から100%改善する。
我々のシステムはタスクAの矛盾F1で2位、50のうち3位はタスクBの引用カバレッジ98.77%で、ゼロの引用の矛盾率を実現している。
我々の研究は、LSMを確率的ジェネレータから正直なエビデンスシンセサイザーに変換し、バイオメディカルAIにおけるエピステマティックな整合性には精度とアーキテクチャのスケーラビリティが孤立したメートル法最適化を必要とすることを示した。
関連論文リスト
- BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG [65.0203623486525]
大規模言語モデル(LLM)は、医学的質問応答において高い推論能力を示す。
幻覚や時代遅れの知識を生み出す傾向は、医療分野において重大なリスクをもたらす。
既存の手法はノイズの多いトークンレベルの信号に依存しており、複雑な推論に必要なマルチラウンドの改良は欠如している。
論文 参考訳(メタデータ) (2026-02-06T08:25:30Z) - A Theoretically Grounded Hybrid Ensemble for Reliable Detection of LLM-Generated Text [0.0]
本稿では,3つの相補的検出パラダイムを融合した,理論的に基礎付けられたハイブリッドアンサンブルを提案する。
中心となる新規性は、F1スコアを最大化する確率的単純度に基づいてアンサンブル重みを学習する最適化された重み付き投票フレームワークにある。
本システムでは、94.2%の精度と0.978のAUCを達成し、学術テキスト上での偽陽性を35%削減した。
論文 参考訳(メタデータ) (2025-11-27T06:42:56Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models [7.095344389368656]
Deliberative Reasoning Network (DRN) は、確率から不確実性への論理的推論を再構成する新しいパラダイムである。
DRNは、信念状態を明示的に追跡し、競合する仮説の不確実性を定量化することによって、本質的な解釈可能性を達成する。
我々は、DRNを、より信頼できるAIシステムを構築するための、基礎的で検証可能なシステム2推論コンポーネントとして位置付ける。
論文 参考訳(メタデータ) (2025-08-06T11:33:35Z) - Scalable Unit Harmonization in Medical Informatics via Bayesian-Optimized Retrieval and Transformer-Based Re-ranking [0.0]
我々は,大規模臨床データセットにおける一貫性のない単位を調和させるスケーラブルな手法を開発した。
フィルタリング、識別、調和提案生成、自動再ランク付け、手動検証といったマルチステージパイプラインを実装している。
このシステムはランク1で83.39%の精度、ランク5で94.66%のリコールを達成した。
論文 参考訳(メタデータ) (2025-05-01T19:09:15Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。