論文の概要: Evaluating Retrieval-Augmented Generation Agents for Autonomous Scientific Discovery in Astrophysics
- arxiv url: http://arxiv.org/abs/2507.07155v1
- Date: Wed, 09 Jul 2025 16:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.153944
- Title: Evaluating Retrieval-Augmented Generation Agents for Autonomous Scientific Discovery in Astrophysics
- Title(参考訳): 天体物理学における自律的科学的発見のための検索エージェントの評価
- Authors: Xueqing Xu, Boris Bolliet, Adrian Dimitrov, Andrew Laverick, Francisco Villaescusa-Navarro, Licong Xu, Íñigo Zubeldia,
- Abstract要約: 105対のコスモロジー質問応答に対するRAG(Retrieval Augmented Generation)エージェントの構成について検討した。
最高のRAGエージェント構成はOpenAIの埋め込みと生成モデルであり、91.4%の精度が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate 9 Retrieval Augmented Generation (RAG) agent configurations on 105 Cosmology Question-Answer (QA) pairs that we built specifically for this purpose.The RAG configurations are manually evaluated by a human expert, that is, a total of 945 generated answers were assessed. We find that currently the best RAG agent configuration is with OpenAI embedding and generative model, yielding 91.4\% accuracy. Using our human evaluation results we calibrate LLM-as-a-Judge (LLMaaJ) system which can be used as a robust proxy for human evaluation. These results allow us to systematically select the best RAG agent configuration for multi-agent system for autonomous scientific discovery in astrophysics (e.g., cmbagent presented in a companion paper) and provide us with an LLMaaJ system that can be scaled to thousands of cosmology QA pairs. We make our QA dataset, human evaluation results, RAG pipelines, and LLMaaJ system publicly available for further use by the astrophysics community.
- Abstract(参考訳): 我々は、この目的のために構築した105のコスモロジー質問応答(QA)ペアに対して、RAG(Retrieval Augmented Generation)エージェント構成を9つ評価し、RAG構成を人手による評価、すなわち、計945件の回答を評価した。
現在最も優れたRAGエージェント構成はOpenAIの埋め込みと生成モデルであり、91.4\%の精度が得られる。
LLM-as-a-Judge (LLMaaJ) システムを人体評価のための堅牢なプロキシとして使用することができる。
これらの結果から,天体物理学における自律的科学的発見のためのマルチエージェントシステムのための最適なRAGエージェント構成を体系的に選択し,数千の宇宙論QAペアにスケール可能なLLMaaJシステムを提供することができた。
我々のQAデータセット、人体評価結果、RAGパイプライン、LLMaaJシステムを、天体物理学コミュニティがさらに活用するために公開しています。
関連論文リスト
- The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - InspectorRAGet: An Introspection Platform for RAG Evaluation [14.066727601732625]
InspectorRAGetは、RAGシステム出力の品質を総合的に分析するイントロスペクションプラットフォームである。
これによってユーザは、人間とアルゴリズムの両方のメトリクスとアノテータの品質を使って、RAGシステムの集約とインスタンスレベルのパフォーマンスを分析できる。
論文 参考訳(メタデータ) (2024-04-26T11:51:53Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。