論文の概要: ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents
- arxiv url: http://arxiv.org/abs/2406.10291v1
- Date: Thu, 13 Jun 2024 03:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:11:41.785491
- Title: ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents
- Title(参考訳): ResearchArena: LLMsが研究エージェントとして情報を収集・整理する能力のベンチマーク
- Authors: Hao Kang, Chenyan Xiong,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理において様々なタスクで顕著な性能を示した。
我々はLLMエージェントが学術調査を行う能力を測定するベンチマーク「ResearchArena」を開発した。
- 参考スコア(独自算出の注目度): 21.17856299966841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exhibited remarkable performance across various tasks in natural language processing. Nevertheless, challenges still arise when these tasks demand domain-specific expertise and advanced analytical skills, such as conducting research surveys on a designated topic. In this research, we develop ResearchArena, a benchmark that measures LLM agents' ability to conduct academic surveys, an initial step of academic research process. Specifically, we deconstructs the surveying process into three stages 1) information discovery: locating relevant papers, 2) information selection: assessing papers' importance to the topic, and 3) information organization: organizing papers into meaningful structures. In particular, we establish an offline environment comprising 12.0M full-text academic papers and 7.9K survey papers, which evaluates agents' ability to locate supporting materials for composing the survey on a topic, rank the located papers based on their impact, and organize these into a hierarchical knowledge mind-map. With this benchmark, we conduct preliminary evaluations of existing techniques and find that all LLM-based methods under-performing when compared to basic keyword-based retrieval techniques, highlighting substantial opportunities for future research.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理において様々なタスクで顕著な性能を示した。
しかしながら、これらのタスクがドメイン固有の専門知識と高度な分析スキルを必要とする場合、例えば指定されたトピックに関する調査を行う場合、依然として課題が生じる。
本研究では,LLMエージェントが学術調査を行う能力を測定するベンチマークであるResearchArenaを開発する。
具体的には,調査プロセスを3段階に分解する。
1)情報発見:関連書類の所在
2【情報選択】その話題に対する論文の重要性を評価すること、
3)情報組織:書類を意味のある構造に整理する。
特に,12.0Mのフルテキスト学術論文と7.9Kの調査論文から構成されるオフライン環境を構築し,調査対象のトピックを作成・ランク付けし,それらを階層的な知識マインドマップに整理する支援資料の特定能力を評価する。
本ベンチマークでは,既存の手法の予備評価を行い,基本的なキーワードベースの検索手法と比較して,LLMに基づく手法は性能が低いことを示し,今後の研究のかなりの機会を浮き彫りにしている。
関連論文リスト
- SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - SurveyAgent: A Conversational System for Personalized and Efficient Research Survey [50.04283471107001]
本稿では,研究者にパーソナライズされた効率的な調査支援を目的とした会話システムであるSurveyAgentを紹介する。
SurveyAgentは3つの重要なモジュールを統合している。文書を整理するための知識管理、関連する文献を発見するための勧告、より深いレベルでコンテンツを扱うためのクエリ回答だ。
本評価は,研究活動の合理化におけるSurveyAgentの有効性を実証し,研究者の科学文献との交流を促進する能力を示すものである。
論文 参考訳(メタデータ) (2024-04-09T15:01:51Z) - Large Language Model for Vulnerability Detection and Repair: Literature Review and the Road Ahead [12.324949480085424]
現在、脆弱性の検出と修復にLarge Language Modelsの利用に焦点を当てた調査は行われていない。
このレビューは、SE、AI、およびセキュリティカンファレンスおよびジャーナルをリードする研究成果を含み、21の異なる会場で発行された36の論文をカバーしている。
論文 参考訳(メタデータ) (2024-04-03T07:27:33Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Efficient Large Language Models: A Survey [45.39970635367852]
この調査は、効率的な大規模言語モデル研究の体系的で包括的なレビューを提供する。
文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。
この調査で特集された論文を整理するGitHubリポジトリも作成しました。
論文 参考訳(メタデータ) (2023-12-06T19:18:42Z) - If the Sources Could Talk: Evaluating Large Language Models for Research
Assistance in History [1.3325600043256554]
高度に専門化された学術資料からのベクトル埋め込みによる大規模言語モデルの拡大により,人文科学の歴史家や他の研究者が会話の方法論を利用できることを示す。
メタデータや全文検索など,デジタルカタログの確立された検索インタフェースと比較して,2種類のタスクのパフォーマンスに対して,LLMのよりリッチな会話スタイルを評価する。
論文 参考訳(メタデータ) (2023-10-16T20:12:06Z) - Towards an Understanding of Large Language Models in Software
Engineering Tasks [32.09925582943177]
大規模言語モデル(LLM)は、テキスト生成や推論といったタスクにおける驚くべき性能のために、広く注目され、研究されている。
本論文は, LLMとソフトウェア工学を組み合わせた研究・製品について, 総合的に調査し, 検討した最初の論文である。
我々は7つの主流データベースから関連文献を広範囲に収集し、分析のために123の論文を選択した。
論文 参考訳(メタデータ) (2023-08-22T12:37:29Z) - Wizard of Search Engine: Access to Information Through Conversations
with Search Engines [58.53420685514819]
我々は3つの側面からCISの研究を促進するために努力している。
目的検出(ID)、キーフレーズ抽出(KE)、行動予測(AP)、クエリ選択(QS)、通過選択(PS)、応答生成(RG)の6つのサブタスクでCIS用のパイプラインを定式化する。
検索エンジンのウィザード(WISE)と呼ばれるベンチマークデータセットをリリースし、CISのすべての側面について包括的かつ詳細な調査を可能にします。
論文 参考訳(メタデータ) (2021-05-18T06:35:36Z) - Conversations with Documents. An Exploration of Document-Centered
Assistance [55.60379539074692]
例えば、個人が文書をすばやくレビューするのを助けるドキュメント中心の支援は、あまり進歩していない。
我々は,文書中心の支援の空間と,人々がこのシナリオで期待する能力を理解するための調査を行う。
a) 文書中心の質問を正確に検出でき、(b) そうした質問に答えるために合理的に正確なモデルを構築することができることを示す。
論文 参考訳(メタデータ) (2020-01-27T17:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。