論文の概要: IntrAgent: An LLM Agent for Content-Grounded Information Retrieval through Literature Review
- arxiv url: http://arxiv.org/abs/2604.22861v1
- Date: Thu, 23 Apr 2026 01:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.005956
- Title: IntrAgent: An LLM Agent for Content-Grounded Information Retrieval through Literature Review
- Title(参考訳): IntrAgent: 文献レビューによるコンテンツを取り巻く情報検索のためのLLMエージェント
- Authors: Fengbo Ma, Zixin Rao, Xiaoting Li, Zhetao Chen, Hongyue Sun, Yiping Zhao, Xianyan Chen, Zhen Xiang,
- Abstract要約: IntrAgentは、情報検索のために文学を読むときの人間の行動を模倣するように設計されている。
関連するセクションを特定し、キーの詳細を反復的に抽出して、検索した情報を精査する。
IntrAgentは最先端のRAGや研究エージェントのベースラインよりも13.2%高いドメイン間精度を実現している。
- 参考スコア(独自算出の注目度): 10.586701795115609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific research relies on accurate information retrieval from literature to support analytical decisions. In this work, we introduce a new task, INformation reTRieval through literAture reVIEW (IntraView), which aims to automate fine-grained information retrieval faithfully grounded in the provided content in response to research-driven queries, and propose IntrAgent, an LLM-based agent that addresses this challenging task. In particular, IntrAgent is designed to mimic human behaviors when reading literature for information retrieval -- identifying relevant sections and then iteratively extracting key details to refine the retrieved information. It follows a two-stage pipeline: a Section Ranking stage that prioritizes relevant literature sections through structural-knowledge-enabled reasoning, and an Iterative Reading stage that continuously extracts details and synthesizes them into concise, contextually grounded answers. To support rigorous evaluation, we introduce IntraBench, a new benchmark consisting of 315 test instances built from expert-authored questions paired with literature spanning five STEM domains. Across seven backbone LLMs, IntrAgent achieves on average 13.2% higher cross-domain accuracy than state-of-the-art RAG and research-agent baselines.
- Abstract(参考訳): 科学的研究は、分析的な決定を支援するために文学からの正確な情報検索に依存している。
本研究では、研究駆動型クエリに応答して提供コンテンツに忠実に基盤付けられた詳細な情報検索を自動化することを目的とした、literAture reVIEW (IntraView) による情報レトロエバル(Information reTRieval)という新しいタスクを導入し、この課題に対処するLLMベースのエージェントであるIntrAgentを提案する。
特に、IntrAgentは、情報検索のために文学を読むときの人間の振る舞いを模倣するように設計されている。
2段階のパイプラインに従っており、構造的知識を考慮した推論を通じて関連文学のセクションを優先順位付けするセクションランキングステージと、詳細を継続的に抽出し、簡潔で文脈に根ざした回答に合成する反復読解ステージである。
厳密な評価を支援するために,5つのSTEMドメインにまたがる文献と組み合わせた専門家による質問から構築した315個のテストインスタンスからなる新しいベンチマークであるIntraBenchを紹介する。
7つのバックボーンLLMで、IntrAgentは最先端RAGや研究エージェントベースラインよりも平均13.2%高いクロスドメイン精度を達成する。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [3.453564255183234]
体系的文献レビュー(SLR)は証拠に基づく研究の基礎である。
本稿では,SLRの完全自動化を目的とした新しいマルチAIエージェントシステムを提案する。
包括性と精度を維持しつつ,従来のSLRに必要な時間と労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。