論文の概要: PaperQA: Retrieval-Augmented Generative Agent for Scientific Research
- arxiv url: http://arxiv.org/abs/2312.07559v2
- Date: Thu, 14 Dec 2023 19:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:10:31.605948
- Title: PaperQA: Retrieval-Augmented Generative Agent for Scientific Research
- Title(参考訳): PaperQA: 科学的研究のための検索強化生成エージェント
- Authors: Jakub L\'ala, Odhran O'Donoghue, Aleksandar Shtedritski, Sam Cox,
Samuel G. Rodriques, Andrew D. White
- Abstract要約: 本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
- 参考スコア(独自算出の注目度): 41.9628176602676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) generalize well across language tasks, but
suffer from hallucinations and uninterpretability, making it difficult to
assess their accuracy without ground-truth. Retrieval-Augmented Generation
(RAG) models have been proposed to reduce hallucinations and provide provenance
for how an answer was generated. Applying such models to the scientific
literature may enable large-scale, systematic processing of scientific
knowledge. We present PaperQA, a RAG agent for answering questions over the
scientific literature. PaperQA is an agent that performs information retrieval
across full-text scientific articles, assesses the relevance of sources and
passages, and uses RAG to provide answers. Viewing this agent as a question
answering model, we find it exceeds performance of existing LLMs and LLM agents
on current science QA benchmarks. To push the field closer to how humans
perform research on scientific literature, we also introduce LitQA, a more
complex benchmark that requires retrieval and synthesis of information from
full-text scientific papers across the literature. Finally, we demonstrate
PaperQA's matches expert human researchers on LitQA.
- Abstract(参考訳): 大規模言語モデル(llm)は、言語タスクをまたがってうまく一般化するが、幻覚や解釈不能に苦しむため、根拠を欠くことなくその正確性を評価することは困難である。
Retrieval-Augmented Generation (RAG)モデルは幻覚を減らし、どのように回答が生成されるかを示すために提案されている。
このようなモデルを科学文献に適用することで、科学知識の大規模かつ体系的な処理が可能になる。
本稿では科学文献に関する質問に答えるためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
このエージェントを質問応答モデルとして見てみると、現在の科学QAベンチマークにおいて、既存のLLMおよびLLMエージェントの性能を上回ることが分かる。
科学文献研究の領域に近づこうとする試みとして,全文科学論文の情報検索と合成を必要とする,より複雑なベンチマークであるlitqaも紹介する。
最後に、LitQAのヒト研究者によるPaperQAのマッチを実演する。
関連論文リスト
- System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization [88.72769238904908]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Clinfo.ai: An Open-Source Retrieval-Augmented Large Language Model
System for Answering Medical Questions using Scientific Literature [44.715854387549605]
我々はClinfo.aiをリリースした。Clinfo.aiはオープンソースのWebアプリケーションで、動的に検索された科学的文献に基づいて臨床上の質問に答える。
我々は PubMedRS-200 上で Clinfo.ai および他の公開 OpenQA システムのベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2023-10-24T19:43:39Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - Science Checker: Extractive-Boolean Question Answering For Scientific
Fact Checking [0.0]
本研究では,研究論文における事実と証拠からの合同推論に基づいて,科学的疑問を検証するためのマルチタスクアプローチを提案する。
提案した軽量かつ高速なアーキテクチャにより、平均エラー率は4%、F1スコアは95.6%に達した。
論文 参考訳(メタデータ) (2022-04-26T12:35:23Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。