Fugu-MT 論文翻訳(概要): ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents

論文の概要: ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents

arxiv url: http://arxiv.org/abs/2406.10291v1
Date: Thu, 13 Jun 2024 03:26:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 01:11:41.785491
Title: ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents
Title（参考訳）: ResearchArena: LLMsが研究エージェントとして情報を収集・整理する能力のベンチマーク
Authors: Hao Kang, Chenyan Xiong,
Abstract要約: 大規模言語モデル (LLM) は自然言語処理において様々なタスクで顕著な性能を示した。我々はLLMエージェントが学術調査を行う能力を測定するベンチマーク「ResearchArena」を開発した。
参考スコア（独自算出の注目度）: 21.17856299966841
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have exhibited remarkable performance across various tasks in natural language processing. Nevertheless, challenges still arise when these tasks demand domain-specific expertise and advanced analytical skills, such as conducting research surveys on a designated topic. In this research, we develop ResearchArena, a benchmark that measures LLM agents' ability to conduct academic surveys, an initial step of academic research process. Specifically, we deconstructs the surveying process into three stages 1) information discovery: locating relevant papers, 2) information selection: assessing papers' importance to the topic, and 3) information organization: organizing papers into meaningful structures. In particular, we establish an offline environment comprising 12.0M full-text academic papers and 7.9K survey papers, which evaluates agents' ability to locate supporting materials for composing the survey on a topic, rank the located papers based on their impact, and organize these into a hierarchical knowledge mind-map. With this benchmark, we conduct preliminary evaluations of existing techniques and find that all LLM-based methods under-performing when compared to basic keyword-based retrieval techniques, highlighting substantial opportunities for future research.
Abstract（参考訳）: 大規模言語モデル (LLM) は自然言語処理において様々なタスクで顕著な性能を示した。しかしながら、これらのタスクがドメイン固有の専門知識と高度な分析スキルを必要とする場合、例えば指定されたトピックに関する調査を行う場合、依然として課題が生じる。本研究では,LLMエージェントが学術調査を行う能力を測定するベンチマークであるResearchArenaを開発する。具体的には,調査プロセスを3段階に分解する。 1)情報発見:関連書類の所在 2【情報選択】その話題に対する論文の重要性を評価すること、 3)情報組織:書類を意味のある構造に整理する。特に,12.0Mのフルテキスト学術論文と7.9Kの調査論文から構成されるオフライン環境を構築し,調査対象のトピックを作成・ランク付けし,それらを階層的な知識マインドマップに整理する支援資料の特定能力を評価する。本ベンチマークでは,既存の手法の予備評価を行い,基本的なキーワードベースの検索手法と比較して,LLMに基づく手法は性能が低いことを示し,今後の研究のかなりの機会を浮き彫りにしている。

関連論文リスト

Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
Retrieval Augmented Generation for Topic Modeling in Organizational Research: An Introduction with Empirical Demonstration [0.0]
本稿では,LLMを用いたトピックモデリング手法として,エージェント検索拡張生成(Agentic RAG)を提案する。 1) LLM の事前訓練された知識を超えた外部データへの自動アクセスを可能にする検索,(2) LLM の機能を利用してテキスト合成を行う生成,(3) エージェント駆動学習, 反復的に検索とクエリの定式化を行う。本研究は,本手法がより効率的で解釈可能であり,同時に,従来の機械学習手法と比較して信頼性と妥当性が向上することを示した。
論文参考訳（メタデータ） (2025-02-28T11:25:11Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
AAAR-1.0: Assessing AI's Potential to Assist Research [34.88341605349765]
AAAR-1.0は,大規模言語モデル(LLM)の性能を評価するためのベンチマークデータセットである。 AAAR-1.0は、以前のベンチマークと大きく異なる2つの主要な方法である: 第一に、明らかに研究指向で、深いドメインの専門知識を必要とするタスク、第二に、研究者が日々従事する主要なアクティビティを反映する研究者指向である。
論文参考訳（メタデータ） (2024-10-29T17:58:29Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
What is the Role of Large Language Models in the Evolution of Astronomy Research? [0.0]
ChatGPTや他の最先端の大規模言語モデル(LLM)は、急速に複数のフィールドを変換している。これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示す。
論文参考訳（メタデータ） (2024-09-30T12:42:25Z)
Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature [48.572336666741194]
本稿では,探索探索能力の向上を目的とした知識ナビゲータを提案する。検索された文書を、名前と記述の科学トピックとサブトピックの、ナビゲート可能な2段階の階層に整理する。
論文参考訳（メタデータ） (2024-08-28T14:48:37Z)
Reconciling Methodological Paradigms: Employing Large Language Models as Novice Qualitative Research Assistants in Talent Management Research [1.0949553365997655]
本研究では,RAGに基づくLarge Language Models (LLMs) を用いた面接文の解析手法を提案する。この研究の斬新さは、初歩的な研究助手として機能するLSMによって強化された研究調査をストラテジー化することにある。以上の結果から, LLM拡張RAGアプローチは, 手動で生成したトピックと比較して, 興味のあるトピックを抽出できることが示唆された。
論文参考訳（メタデータ） (2024-08-20T17:49:51Z)
Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文参考訳（メタデータ） (2024-07-04T16:41:08Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
SurveyAgent: A Conversational System for Personalized and Efficient Research Survey [50.04283471107001]
本稿では,研究者にパーソナライズされた効率的な調査支援を目的とした会話システムであるSurveyAgentを紹介する。 SurveyAgentは3つの重要なモジュールを統合している。文書を整理するための知識管理、関連する文献を発見するための勧告、より深いレベルでコンテンツを扱うためのクエリ回答だ。本評価は,研究活動の合理化におけるSurveyAgentの有効性を実証し,研究者の科学文献との交流を促進する能力を示すものである。
論文参考訳（メタデータ） (2024-04-09T15:01:51Z)
A Reliable Knowledge Processing Framework for Combustion Science using Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文参考訳（メタデータ） (2023-12-31T17:15:25Z)
Efficient Large Language Models: A Survey [45.39970635367852]
この調査は、効率的な大規模言語モデル研究の体系的で包括的なレビューを提供する。文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。この調査で特集された論文を整理するGitHubリポジトリも作成しました。
論文参考訳（メタデータ） (2023-12-06T19:18:42Z)
If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History [1.3325600043256554]
高度に専門化された学術資料からのベクトル埋め込みによる大規模言語モデルの拡大により,人文科学の歴史家や他の研究者が会話の方法論を利用できることを示す。メタデータや全文検索など,デジタルカタログの確立された検索インタフェースと比較して,2種類のタスクのパフォーマンスに対して,LLMのよりリッチな会話スタイルを評価する。
論文参考訳（メタデータ） (2023-10-16T20:12:06Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Wizard of Search Engine: Access to Information Through Conversations with Search Engines [58.53420685514819]
我々は3つの側面からCISの研究を促進するために努力している。目的検出(ID)、キーフレーズ抽出(KE)、行動予測(AP)、クエリ選択(QS)、通過選択(PS)、応答生成(RG)の6つのサブタスクでCIS用のパイプラインを定式化する。検索エンジンのウィザード(WISE)と呼ばれるベンチマークデータセットをリリースし、CISのすべての側面について包括的かつ詳細な調査を可能にします。
論文参考訳（メタデータ） (2021-05-18T06:35:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。