論文の概要: Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System
- arxiv url: http://arxiv.org/abs/2509.17240v1
- Date: Sun, 21 Sep 2025 21:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.180445
- Title: Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System
- Title(参考訳): エージェントは人間のような体系的レビューを判断できるか? LLMに基づくマルチエージェントシステムによるSLRの評価
- Authors: Abdullah Mushtaq, Muhammad Rafay Naeem, Ibrahim Ghaznavi, Alaa Abd-alrazaq, Aliya Tabassum, Junaid Qadir,
- Abstract要約: 体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
- 参考スコア(独自算出の注目度): 1.3052252174353483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic Literature Reviews (SLRs) are foundational to evidence-based research but remain labor-intensive and prone to inconsistency across disciplines. We present an LLM-based SLR evaluation copilot built on a Multi-Agent System (MAS) architecture to assist researchers in assessing the overall quality of the systematic literature reviews. The system automates protocol validation, methodological assessment, and topic relevance checks using a scholarly database. Unlike conventional single-agent methods, our design integrates a specialized agentic approach aligned with PRISMA guidelines to support more structured and interpretable evaluations. We conducted an initial study on five published SLRs from diverse domains, comparing system outputs to expert-annotated PRISMA scores, and observed 84% agreement. While early results are promising, this work represents a first step toward scalable and accurate NLP-driven systems for interdisciplinary workflows and reveals their capacity for rigorous, domain-agnostic knowledge aggregation to streamline the review process.
- Abstract(参考訳): 体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
本システムは,学術データベースを用いたプロトコル検証,方法論評価,トピック関連チェックを自動化する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
各種ドメインからの5つのSLRについて初回調査を行い,システム出力とPRISMAスコアを比較し,84%の合意を得た。
初期の成果は有望だが、この作業は、学際的なワークフローのためのスケーラブルで正確なNLP駆動システムへの第一歩であり、レビュープロセスを合理化するための厳密でドメインに依存しない知識集約の能力を明らかにしている。
関連論文リスト
- LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios [63.08653028889316]
エージェント推論フレームワークを分解し,これらのフレームワークがどのようにフレームワークレベルの推論を支配しているかを分析する。
具体的には,エージェント推論システムを単一エージェントメソッド,ツールベースメソッド,マルチエージェントメソッドに分類するための統一形式言語を提案する。
我々は、科学的発見、医療、ソフトウェア工学、社会シミュレーション、経済学における彼らの主要な応用シナリオを包括的にレビューする。
論文 参考訳(メタデータ) (2025-08-25T06:01:16Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。
RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。
本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文 参考訳(メタデータ) (2025-04-28T08:22:19Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [3.453564255183234]
体系的文献レビュー(SLR)は証拠に基づく研究の基礎である。
本稿では,SLRの完全自動化を目的とした新しいマルチAIエージェントシステムを提案する。
包括性と精度を維持しつつ,従来のSLRに必要な時間と労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。