論文の概要: PaSa: An LLM Agent for Comprehensive Academic Paper Search
- arxiv url: http://arxiv.org/abs/2501.10120v1
- Date: Fri, 17 Jan 2025 11:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:04.401380
- Title: PaSa: An LLM Agent for Comprehensive Academic Paper Search
- Title(参考訳): PaSa: 総合的な学術論文検索のためのLLMエージェント
- Authors: Yichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E,
- Abstract要約: PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。
合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。
合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 9.659239990189619
- License:
- Abstract: We introduce PaSa, an advanced Paper Search agent powered by large language models. PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries. We optimize PaSa using reinforcement learning with a synthetic dataset, AutoScholarQuery, which includes 35k fine-grained academic queries and corresponding papers sourced from top-tier AI conference publications. Additionally, we develop RealScholarQuery, a benchmark collecting real-world academic queries to assess PaSa performance in more realistic scenarios. Despite being trained on synthetic data, PaSa significantly outperforms existing baselines on RealScholarQuery, including Google, Google Scholar, Google with GPT-4 for paraphrased queries, chatGPT (search-enabled GPT-4o), GPT-o1, and PaSa-GPT-4o (PaSa implemented by prompting GPT-4o). Notably, PaSa-7B surpasses the best Google-based baseline, Google with GPT-4o, by 37.78% in recall@20 and 39.90% in recall@50. It also exceeds PaSa-GPT-4o by 30.36% in recall and 4.25% in precision. Model, datasets, and code are available at https://github.com/bytedance/pasa.
- Abstract(参考訳): 本稿では,大規模言語モデルを利用した高度な論文検索エージェントPaSaを紹介する。
PaSaは、検索ツールの呼び出し、論文の読み込み、関連する参照の選択などの一連の決定を自律的に行うことができ、最終的には複雑な学術的なクエリの包括的で正確な結果を得ることができる。
合成データセットを使用した強化学習(AutoScholarQuery)を使用してPaSaを最適化する。
さらに、より現実的なシナリオでPaSaのパフォーマンスを評価するために、実世界の学術的クエリを収集するベンチマークであるRealScholarQueryを開発した。
合成データでトレーニングされているにもかかわらず、PaSaは、Google、Google Scholar、Google with GPT-4 for paraphrased query、chatGPT (search-alia GPT-4o)、GPT-o1、PaSa-GPT-4o (PaSaはGPT-4oのプロンプトによって実装されている)など、RealScholarQueryの既存のベースラインを著しく上回っている。
特に、PaSa-7BはGoogleベースで最高のベースラインであるGPT-4oを37.78%リコール@20、リコール@50で39.90%上回っている。
PaSa-GPT-4oはリコールで30.36%、精度で4.25%を超える。
モデル、データセット、コードはhttps://github.com/bytedance/pasa.comで入手できる。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - GPT-4o System Card [211.87336862081963]
GPT-4oは自動回帰オムニモデルであり、テキスト、オーディオ、画像、ビデオの組み合わせを入力として受け入れる。
テキスト、ビジョン、オーディオでエンドツーエンドにトレーニングされており、すべての入力と出力は同じニューラルネットワークで処理される。
GPT-4は、英語とコードのテキスト上でのTurboのパフォーマンスと一致し、非英語のテキストでは大幅に改善された。
論文 参考訳(メタデータ) (2024-10-25T17:43:01Z) - ChatQA: Surpassing GPT-4 on Conversational QA and RAG [43.34692996785167]
検索強化世代(RAG)と会話型質問応答(QA)においてGPT-4より優れたモデル群であるChatQAを紹介する。
効率的な検索のために,対話型QAに最適化された高密度検索手法を導入する。
提案するChatRAG Benchは、RAG、テーブル関連QA、算術計算、および解決不可能な質問を含むシナリオに関する総合的な評価を含む10のデータセットを含む。
論文 参考訳(メタデータ) (2024-01-18T18:59:11Z) - Real Customization or Just Marketing: Are Customized Versions of Chat
GPT Useful? [0.0]
OpenAIは、自然言語のWebインターフェースでモデルを微調整する可能性をローンチした。
この研究は、OpenAIが最近立ち上げたカスタマイズされたGPTの可能性を評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-27T15:46:15Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance
of Current GPT Models in Biomedical Tasks [4.2177790395417745]
GPT-3.5-TurboとGPT-4は主要なシステムと競合する能力を示した。
より古く安価なGPT-3.5-Turboシステムは、地上のQ&A設定でGPT-4と競合することができた。
論文 参考訳(メタデータ) (2023-06-28T11:24:48Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。