論文の概要: ArxivBench: Can LLMs Assist Researchers in Conducting Research?
- arxiv url: http://arxiv.org/abs/2504.10496v1
- Date: Sun, 06 Apr 2025 05:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:35:00.244448
- Title: ArxivBench: Can LLMs Assist Researchers in Conducting Research?
- Title(参考訳): ArxivBench: LLMは研究を支援することができるのか?
- Authors: Ning Li, Jingran Zhang, Justin Cui,
- Abstract要約: 大規模言語モデル(LLM)は、推論、翻訳、質問応答といった様々なタスクを完了させる際、顕著な効果を示した。
本研究では,オープンソース LLM とプロプライエタリ LLM を,関連する研究論文に回答する能力と,arXiv プラットフォーム上でホストされている記事への正確なリンクについて評価する。
対象者によっては, LLM生成反応の関連性は認められず, 被験者によっては, 他者よりも有意に低い結果が得られた。
- 参考スコア(独自算出の注目度): 6.586119023242877
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable effectiveness in completing various tasks such as reasoning, translation, and question answering. However the issue of factual incorrect content in LLM-generated responses remains a persistent challenge. In this study, we evaluate both proprietary and open-source LLMs on their ability to respond with relevant research papers and accurate links to articles hosted on the arXiv platform, based on high level prompts. To facilitate this evaluation, we introduce arXivBench, a benchmark specifically designed to assess LLM performance across eight major subject categories on arXiv and five subfields within computer science, one of the most popular categories among them. Our findings reveal a concerning accuracy of LLM-generated responses depending on the subject, with some subjects experiencing significantly lower accuracy than others. Notably, Claude-3.5-Sonnet exhibits a substantial advantage in generating both relevant and accurate responses. And interestingly, most LLMs achieve a much higher accuracy in the Artificial Intelligence sub-field than other sub-fields. This benchmark provides a standardized tool for evaluating the reliability of LLM-generated scientific responses, promoting more dependable use of LLMs in academic and research environments. Our code is open-sourced at https://github.com/arxivBenchLLM/arXivBench and our dataset is available on huggingface at https://huggingface.co/datasets/arXivBenchLLM/arXivBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、翻訳、質問応答といった様々なタスクを完了させる際、顕著な効果を示した。
しかし、LLM生成応答における事実的不正確な内容の問題はまだ持続的な課題である。
本研究では,関連研究論文への回答能力とarXivプラットフォーム上でホストされている記事への正確なリンクを,ハイレベルなプロンプトに基づいて,プロプライエタリとオープンソースの両方で評価する。
この評価を容易にするために, arXivBenchは, 計算機科学における8つの主要分野と5つのサブ分野にまたがるLLM性能を評価するために設計されたベンチマークである。
対象者によっては, LLM生成反応の関連性は認められず, 被験者によっては, 他者よりも有意に低い結果が得られた。
特に、Claude-3.5-Sonnetは、関連する応答と正確な応答の両方を生成する点で大きな利点がある。
興味深いことに、ほとんどのLLMは人工知能のサブフィールドで他のサブフィールドよりもはるかに高い精度を実現している。
このベンチマークは、LLM生成した科学的応答の信頼性を評価するための標準化されたツールを提供し、学術・研究環境におけるLCMのより信頼性の高い利用を促進する。
私たちのコードはhttps://github.com/arxivBenchLLM/arXivBenchでオープンソース化され、データセットはhttps://huggingface.co/datasets/arXivBenchLLM/arXivBenchで公開されています。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review [8.524433537542484]
大規模言語モデル(LLM)は、HCIに革命をもたらす位置にある。
現在、LLMsのHCIへの取り込みについてはほとんど理解されていない。
我々は、LLMに関わる2020-24年の153件のCHI論文をレビューする。
論文 参考訳(メタデータ) (2025-01-22T00:31:51Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research [0.23982628363233693]
本研究では,Large Language Models (LLMs) が,訓練中にHAR(Human Activity Recognition)データセットにアクセス可能かどうかを検討する。
ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。
特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
論文 参考訳(メタデータ) (2024-06-09T19:38:27Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - Large Language Models for Software Engineering: A Systematic Literature Review [34.12458948051519]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えている。
我々は、2017年1月から2024年1月までの395件の研究論文を選定、分析し、4つの重要な研究質問(RQ)に答える。
これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。
論文 参考訳(メタデータ) (2023-08-21T10:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。