論文の概要: Language agents achieve superhuman synthesis of scientific knowledge
- arxiv url: http://arxiv.org/abs/2409.13740v2
- Date: Thu, 26 Sep 2024 15:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:35:28.582833
- Title: Language agents achieve superhuman synthesis of scientific knowledge
- Title(参考訳): 言語エージェントが科学的知識の超人的合成を実現する
- Authors: Michael D. Skarlinski, Sam Cox, Jon M. Laurent, James D. Braza, Michaela Hinks, Michael J. Hammerling, Manvitha Ponnapati, Samuel G. Rodriques, Andrew D. White,
- Abstract要約: PaperQA2は、ファクトリティの改善、マッチング、あるいは課題の専門家のパフォーマンスを上回るように最適化されたフロンティア言語モデルエージェントである。
PaperQA2は、Wikipediaのような科学的トピックの要約を引用している。
本稿では,人間にとって重要な科学的課題である科学文献の矛盾を明らかにするためにPaperQA2を適用した。
- 参考スコア(独自算出の注目度): 0.7635132958167216
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models are known to hallucinate incorrect information, and it is unclear if they are sufficiently accurate and reliable for use in scientific research. We developed a rigorous human-AI comparison methodology to evaluate language model agents on real-world literature search tasks covering information retrieval, summarization, and contradiction detection tasks. We show that PaperQA2, a frontier language model agent optimized for improved factuality, matches or exceeds subject matter expert performance on three realistic literature research tasks without any restrictions on humans (i.e., full access to internet, search tools, and time). PaperQA2 writes cited, Wikipedia-style summaries of scientific topics that are significantly more accurate than existing, human-written Wikipedia articles. We also introduce a hard benchmark for scientific literature research called LitQA2 that guided design of PaperQA2, leading to it exceeding human performance. Finally, we apply PaperQA2 to identify contradictions within the scientific literature, an important scientific task that is challenging for humans. PaperQA2 identifies 2.34 +/- 1.99 contradictions per paper in a random subset of biology papers, of which 70% are validated by human experts. These results demonstrate that language model agents are now capable of exceeding domain experts across meaningful tasks on scientific literature.
- Abstract(参考訳): 言語モデルは誤った情報を幻覚させることが知られており、科学的研究に十分な正確で信頼性があるかどうかは不明である。
我々は,情報検索,要約,矛盾検出タスクを含む実世界の文献検索タスクにおいて,言語モデルエージェントを評価するための厳密な人間-AI比較手法を開発した。
そこで本研究では,現実性向上に最適化されたフロンティア言語モデルエージェントであるPaperQA2が,人間に制約のない3つの現実的な文献研究課題(インターネットへの完全アクセス,検索ツール,時間など)において,課題の専門家のパフォーマンスに適合するか,あるいは超えていることを示す。
PaperQA2は、Wikipediaのような科学的トピックの要約を引用している。
また,PaperQA2の設計を指導するLitQA2という科学文献研究のためのハードベンチマークも導入し,人的性能を上回った。
最後に,人間にとって重要な科学的課題である科学文献内の矛盾を明らかにするためにPaperQA2を適用した。
PaperQA2は、生物学論文のランダムなサブセットにおいて、1紙あたり2.34 +/- 1.99の矛盾を識別し、そのうち70%は人間の専門家によって検証されている。
これらの結果は、言語モデルエージェントが、科学文献において有意義なタスクにまたがってドメインエキスパートを超えることができることを示した。
関連論文リスト
- Detecting Reference Errors in Scientific Literature with Large Language Models [0.552480439325792]
本研究は,OpenAI の GPT ファミリーにおいて,引用誤りを検出するための大規模言語モデルの能力を評価する。
その結果,大規模言語モデルでは文脈が限定され,微調整を行なわずに誤引用を検出できることがわかった。
論文 参考訳(メタデータ) (2024-11-09T07:30:38Z) - SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers [20.273439120429025]
SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。
他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。
SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
論文 参考訳(メタデータ) (2024-11-08T05:28:22Z) - BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.624608816218505]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。
私たちはまず『Understanding Literature』を2つの原子能力に分解した。
次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (2024-06-29T15:23:28Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、大規模言語モデルによる研究アイデア作成エージェントである。
科学文献に基づいて繰り返し精製しながら、問題、方法、実験設計を生成する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z) - Is This Abstract Generated by AI? A Research for the Gap between
AI-generated Scientific Text and Human-written Scientific Text [13.438933219811188]
本稿では,AIが生み出す科学内容と人間による文章とのギャップについて検討する。
我々は、AI生成科学テキストと人文科学テキストの間に、文章スタイルのギャップがあることを発見した。
論文 参考訳(メタデータ) (2023-01-24T04:23:20Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。