論文の概要: OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
- arxiv url: http://arxiv.org/abs/2411.14199v1
- Date: Thu, 21 Nov 2024 15:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:53.192880
- Title: OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
- Title(参考訳): OpenScholar: 検索拡張LMによる科学文献の合成
- Authors: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi,
- Abstract要約: 我々は,4500万件のオープンアクセス論文と引用支援の回答を関連づけることで,科学的クエリに答える特殊な検索拡張LMであるOpenScholarを紹介した。
ScholarQABench では OpenScholar-8B が GPT-4o を5%、PaperQA2 を7% 上回っている。
OpenScholarのデータストア、レトリバー、セルフフィードバック推論ループも、既製のLMを改善している。
- 参考スコア(独自算出の注目度): 151.79792315631965
- License:
- Abstract: Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.
- Abstract(参考訳): 科学的進歩は、成長する文学体を合成する研究者の能力に依存する。
大規模言語モデル(LM)はこのタスクで科学者を支援することができるか?
我々は,4500万件のオープンアクセス論文の関連パスを特定し,引用支援応答を合成することによって,科学的クエリに答える特殊な検索拡張LMであるOpenScholarを紹介した。
OpenScholarを評価するために、ScholarQABenchは、文献検索のための最初の大規模マルチドメインベンチマークであり、2,967のエキスパートによるクエリと、コンピュータ科学、物理学、神経科学、バイオメディシンにまたがる208の長文回答からなる。
ScholarQABench では OpenScholar-8B が GPT-4o を5%、PaperQA2 を7% 上回っている。
GPT4oは78から90%の時間で引用を幻覚させるが、OpenScholarは人間の専門家と同等の引用精度を達成する。
OpenScholarのデータストア、レトリバー、セルフフィードバック推論ループも、既製のLMを改善している。
人間の評価では、専門家は専門家が書いたものよりもOpenScholar-8BとOpenScholar-GPT4oの反応を好んだ。
コード、モデル、データストア、データ、公開デモをすべてオープンソースにしています。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - DocReLM: Mastering Document Retrieval with Language Model [49.847369507694154]
本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現することを実証する。
我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。
我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
論文 参考訳(メタデータ) (2024-05-19T06:30:22Z) - REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs [41.64918533152914]
本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
約20万件の研究論文から, 公立及びプロプライエタリなLCMについて, 以下を引用する。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文 参考訳(メタデータ) (2024-02-22T16:06:23Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - Opening up ChatGPT: Tracking openness, transparency, and accountability
in instruction-tuned text generators [0.11470070927586018]
コードのオープン性、トレーニングデータ、モデルウェイト、RLHFデータ、ライセンス、科学文書、アクセス方法の観点からプロジェクトを評価する。
オープンソース”と自称するプロジェクトのリストが急速に伸びているのに対して、多くのプロジェクトは、疑わしい合法性の文書化されていないデータを継承している。
オープン性の度合いは、あらゆる点で公平性と説明責任に関係している。
論文 参考訳(メタデータ) (2023-07-08T07:08:20Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。