論文の概要: ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents
- arxiv url: http://arxiv.org/abs/2406.10291v2
- Date: Fri, 14 Feb 2025 17:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:05:51.390450
- Title: ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents
- Title(参考訳): ResearchArena: 大規模言語モデルの学習エージェントとしての情報の収集と整理能力のベンチマーク
- Authors: Hao Kang, Chenyan Xiong,
- Abstract要約: 本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
- 参考スコア(独自算出の注目度): 21.17856299966841
- License:
- Abstract: Large language models (LLMs) excel across many natural language processing tasks but face challenges in domain-specific, analytical tasks such as conducting research surveys. This study introduces ResearchArena, a benchmark designed to evaluate LLMs' capabilities in conducting academic surveys$\unicode{x2013}$a foundational step in academic research. ResearchArena models the process in three stages: (1) information discovery, identifying relevant literature; (2) information selection, evaluating papers' relevance and impact; and (3) information organization, structuring knowledge into hierarchical frameworks such as mind-maps. Notably, mind-map construction is treated as a bonus task, reflecting its supplementary role in survey-writing. To support these evaluations, we construct an offline environment of 12M full-text academic papers and 7.9K survey papers. To ensure ethical compliance, we do not redistribute copyrighted materials; instead, we provide code to construct the environment from the Semantic Scholar Open Research Corpus (S2ORC). Preliminary evaluations reveal that LLM-based approaches underperform compared to simpler keyword-based retrieval methods, underscoring significant opportunities for advancing LLMs in autonomous research.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理タスクを網羅するが、調査実施などのドメイン固有の分析タスクでは課題に直面している。
本研究では,学術調査におけるLLMの能力を評価するためのベンチマークであるResearchArenaを紹介した。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)知識をマインドマップなどの階層的な枠組みに構造化する情報組織,の3段階をモデル化する。
特に、マインドマップ構築は、調査書の補足的な役割を反映してボーナスタスクとして扱われる。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
倫理的コンプライアンスを確保するため、我々は著作権のある資料を再配布するのではなく、セマンティック・スカラー・オープン・リサーチ・コーポレーション(S2ORC)から環境を構築するためのコードを提供している。
予備的な評価では、LLMベースのアプローチは、より単純なキーワードベースの検索手法に比べて性能が低く、自律的な研究においてLLMを前進させる重要な機会を過小評価している。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - AAAR-1.0: Assessing AI's Potential to Assist Research [34.88341605349765]
AAAR-1.0は,大規模言語モデル(LLM)の性能を評価するためのベンチマークデータセットである。
AAAR-1.0は、以前のベンチマークと大きく異なる2つの主要な方法である: 第一に、明らかに研究指向で、深いドメインの専門知識を必要とするタスク、第二に、研究者が日々従事する主要なアクティビティを反映する研究者指向である。
論文 参考訳(メタデータ) (2024-10-29T17:58:29Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Reconciling Methodological Paradigms: Employing Large Language Models as Novice Qualitative Research Assistants in Talent Management Research [1.0949553365997655]
本研究では,RAGに基づくLarge Language Models (LLMs) を用いた面接文の解析手法を提案する。
この研究の斬新さは、初歩的な研究助手として機能するLSMによって強化された研究調査をストラテジー化することにある。
以上の結果から, LLM拡張RAGアプローチは, 手動で生成したトピックと比較して, 興味のあるトピックを抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T17:49:51Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Efficient Large Language Models: A Survey [45.39970635367852]
この調査は、効率的な大規模言語モデル研究の体系的で包括的なレビューを提供する。
文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。
この調査で特集された論文を整理するGitHubリポジトリも作成しました。
論文 参考訳(メタデータ) (2023-12-06T19:18:42Z) - If the Sources Could Talk: Evaluating Large Language Models for Research
Assistance in History [1.3325600043256554]
高度に専門化された学術資料からのベクトル埋め込みによる大規模言語モデルの拡大により,人文科学の歴史家や他の研究者が会話の方法論を利用できることを示す。
メタデータや全文検索など,デジタルカタログの確立された検索インタフェースと比較して,2種類のタスクのパフォーマンスに対して,LLMのよりリッチな会話スタイルを評価する。
論文 参考訳(メタデータ) (2023-10-16T20:12:06Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。