論文の概要: PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading
- arxiv url: http://arxiv.org/abs/2510.22242v1
- Date: Sat, 25 Oct 2025 10:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.9979
- Title: PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading
- Title(参考訳): PaperAsk: 論文検索・読解におけるLCMの信頼性評価ベンチマーク
- Authors: Yutao Wu, Xiao Liu, Yunhao Feng, Jiale Ding, Xingjun Ma,
- Abstract要約: 大規模言語モデル (LLMs) は研究助手としての役割を担っているが、学術的なタスクに対する信頼性は低い評価のままである。
本研究では,4つの主要な研究課題を対象としたLCMを体系的に評価するベンチマークであるPaperAskを紹介する。
引用検索は48~98%のマルチ参照クエリで失敗し、セクション固有のコンテンツ抽出は72~91%のケースで失敗し、トピックの論文発見ではF1スコアが0.32未満となり、関連する文献の60%以上が失われている。
- 参考スコア(独自算出の注目度): 24.52586571116556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly serve as research assistants, yet their reliability in scholarly tasks remains under-evaluated. In this work, we introduce PaperAsk, a benchmark that systematically evaluates LLMs across four key research tasks: citation retrieval, content extraction, paper discovery, and claim verification. We evaluate GPT-4o, GPT-5, and Gemini-2.5-Flash under realistic usage conditions-via web interfaces where search operations are opaque to the user. Through controlled experiments, we find consistent reliability failures: citation retrieval fails in 48-98% of multi-reference queries, section-specific content extraction fails in 72-91% of cases, and topical paper discovery yields F1 scores below 0.32, missing over 60% of relevant literature. Further human analysis attributes these failures to the uncontrolled expansion of retrieved context and the tendency of LLMs to prioritize semantically relevant text over task instructions. Across basic tasks, the LLMs display distinct failure behaviors: ChatGPT often withholds responses rather than risk errors, whereas Gemini produces fluent but fabricated answers. To address these issues, we develop lightweight reliability classifiers trained on PaperAsk data to identify unreliable outputs. PaperAsk provides a reproducible and diagnostic framework for advancing the reliability evaluation of LLM-based scholarly assistance systems.
- Abstract(参考訳): 大規模言語モデル (LLMs) は研究助手としての役割を担っているが、学術的なタスクに対する信頼性は低い評価のままである。
本研究では, 引用検索, コンテンツ抽出, 論文発見, クレーム検証の4つの主要な研究課題に対して, LLMを体系的に評価するベンチマークであるPaperAskを紹介する。
GPT-4o, GPT-5, Gemini-2.5-Flashを, ユーザにとって検索操作が不透明なWebインターフェースを介して, 現実的な使用条件下で評価する。
複数参照クエリの48~98%で引用検索が失敗し、72~91%でセクション固有のコンテンツ抽出が失敗し、トピックによる論文発見では0.32未満のF1スコアが得られ、関連する文献の60%以上が失われている。
さらに人間による分析では、これらの失敗は、検索されたコンテキストの制御不能な拡張と、LLMがタスク命令よりも意味論的に関連のあるテキストを優先する傾向に起因している。
ChatGPTはリスクエラーよりも応答を無視することが多いが、Geminiは流動的だが製造された回答を生成する。
これらの問題に対処するために,PaperAskデータに基づいて訓練された軽量信頼性分類器を開発し,信頼性の低い出力を同定する。
PaperAsk は LLM ベースの学術支援システムの信頼性評価を向上するための再現性と診断の枠組みを提供する。
関連論文リスト
- ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation [46.697788643450785]
大規模言語モデル(LLM)は、不完全または選択的に鍵情報を省略する出力を生成する。
センシティブなドメインでは、そのような欠落は、事実的不正確さによって引き起こされるものと同等の重大な害をもたらす可能性がある。
論文 参考訳(メタデータ) (2025-10-09T08:22:24Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - SIFiD: Reassess Summary Factual Inconsistency Detection with LLM [27.392514180175283]
本研究では,Large Language Models (LLMs) を用いた要約不整合検出について再検討する。
本稿では,自然言語推論を用いて文書内のキー文を識別するSIFiD(Summary Inconsistency Detection with Filtered Document)を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:41:51Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。