論文の概要: DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering
- arxiv url: http://arxiv.org/abs/2601.16478v1
- Date: Fri, 23 Jan 2026 06:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.56574
- Title: DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering
- Title(参考訳): DeepEra: 科学的検索強化された質問回答のためのディープエビデンス・リグレード・エージェント
- Authors: Haotian Chen, Qingqing Long, Siyu Pu, Xiao Luo, Wei Ju, Meng Xiao, Yuanchun Zhou, Jianghua Zhao, Xuezhi Wang,
- Abstract要約: ステップバイステップ推論を統合したディープエビデンス評価エージェント(DeepEra)を提案する。
この研究は、2段階のRAGフレームワークにおいて、無視できないSSLI問題を包括的に研究し、実証的に検証した初めてのものである。
- 参考スコア(独自算出の注目度): 28.427433335623217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of scientific literature, scientific question answering (SciQA) has become increasingly critical for exploring and utilizing scientific knowledge. Retrieval-Augmented Generation (RAG) enhances LLMs by incorporating knowledge from external sources, thereby providing credible evidence for scientific question answering. But existing retrieval and reranking methods remain vulnerable to passages that are semantically similar but logically irrelevant, often reducing factual reliability and amplifying hallucinations.To address this challenge, we propose a Deep Evidence Reranking Agent (DeepEra) that integrates step-by-step reasoning, enabling more precise evaluation of candidate passages beyond surface-level semantics. To support systematic evaluation, we construct SciRAG-SSLI (Scientific RAG - Semantically Similar but Logically Irrelevant), a large-scale dataset comprising about 300K SciQA instances across 10 subjects, constructed from 10M scientific corpus. The dataset combines naturally retrieved contexts with systematically generated distractors to test logical robustness and factual grounding. Comprehensive evaluations confirm that our approach achieves superior retrieval performance compared to leading rerankers. To our knowledge, this work is the first to comprehensively study and empirically validate innegligible SSLI issues in two-stage RAG frameworks.
- Abstract(参考訳): 科学文献の急速な発展に伴い、科学的質問応答(SciQA)は科学知識の探索と活用においてますます重要になっている。
Retrieval-Augmented Generation (RAG)は、外部からの知識を取り入れ、科学的な疑問に答えるための信頼できる証拠を提供する。
しかし,既存の検索・復位手法は,意味論的に類似するが論理的に無関係な通路に対して脆弱なままであり,事実的信頼性を低下させ,幻覚を増幅することが多く,この課題に対処するために,ステップバイステップ推論を統合した深部エビデンス再帰エージェント(DeepEra)を提案する。
SciRAG-SSLI (Scientific RAG - Semantically similar but Logically Irrelevant) は10の被験者に約300KのSciQAインスタンスからなる大規模データセットであり,10Mの科学コーパスから構築されている。
データセットは、自然に取得したコンテキストと体系的に生成されたイントラクタを組み合わせて、論理的ロバスト性と事実的グラウンドをテストする。
総合的な評価により,本手法は先行リランカに比べて検索性能が優れていることが確認された。
我々の知る限り、この研究は、2段階のRAGフレームワークにおいて、無視できないSSLI問題を包括的に研究し、実証的に検証した初めてのものです。
関連論文リスト
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - SciRAG: Adaptive, Citation-Aware, and Outline-Guided Retrieval and Synthesis for Scientific Literature [52.36039386997026]
我々は科学文献探索のためのオープンソースのフレームワークであるSciRAGを紹介する。
1) 逐次的証拠収集と並列的証拠収集を柔軟に交互に交互に行う適応的検索,(2) 引用グラフを利用して文書を整理・フィルタリングする引用型記号推論,(3) 整合性と透過的帰属性を確保するために回答を計画・批評・洗練するアウトライン誘導合成,である。
論文 参考訳(メタデータ) (2025-11-18T11:09:19Z) - SimulRAG: Simulator-based RAG for Grounding LLMs in Long-form Scientific QA [35.02813727925432]
大規模言語モデル (LLMs) は科学的問題の解決において有望であることを示す。
科学的な疑問に対する長文の回答を生成するのに役立ちます。
LLMは幻覚に悩まされることが多く、特に長期にわたる科学的な疑問応答の難しい課題に悩まされる。
論文 参考訳(メタデータ) (2025-09-29T20:07:00Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - SciRerankBench: Benchmarking Rerankers Towards Scientific Retrieval-Augmented Generated LLMs [42.88264147977551]
本稿では、RAG-LLMsシステム内の再帰者を評価するためのSciRerankBench(SciRerankBench)ベンチマークを提案する。
我々の知る限りでは、SciRerankBenchはRAG-LLM内のリランカを評価するために特別に開発された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-08-12T08:36:23Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.782357627001154]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (2024-12-04T23:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。