論文の概要: LPFQA: A Long-Tail Professional Forum-based Benchmark for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2511.06346v1
- Date: Sun, 09 Nov 2025 12:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.896661
- Title: LPFQA: A Long-Tail Professional Forum-based Benchmark for LLM Evaluation
- Title(参考訳): LPFQA: LLM評価のためのLong-Tail Professional Forumベースのベンチマーク
- Authors: Liya Zhu, Peizhuang Cong, Aowei Ji, Wenya Wu, Jiani Hou, Chunjie Wu, Xiang Gao, Jingkai Liu, Zhou Huan, Xuelei Sun, Yang Yang, Jianpeng Jiao, Liang Hu, Xinjie Chen, Jiashuo Liu, Jingzhe Ding, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang,
- Abstract要約: 大規模言語モデル(LLM)は、推論、質問応答、プロフェッショナルアプリケーションにおいて急速に進歩している。
現在のデータセットは、しばしば単純化されたタスクや人工シナリオに焦点を合わせ、長い専門知識や現実世界のアプリケーションの複雑さを見下ろしている。
本研究では,学術・産業分野20分野の専門的なフォーラムから派生した,ロングテールな知識ベースベンチマークであるLPFQAを提案する。
- 参考スコア(独自算出の注目度): 25.746010737879683
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have made rapid progress in reasoning, question answering, and professional applications; however, their true capabilities remain difficult to evaluate using existing benchmarks. Current datasets often focus on simplified tasks or artificial scenarios, overlooking long-tail knowledge and the complexities of real-world applications. To bridge this gap, we propose LPFQA, a long-tail knowledge-based benchmark derived from authentic professional forums across 20 academic and industrial fields, covering 502 tasks grounded in practical expertise. LPFQA introduces four key innovations: fine-grained evaluation dimensions that target knowledge depth, reasoning, terminology comprehension, and contextual analysis; a hierarchical difficulty structure that ensures semantic clarity and unique answers; authentic professional scenario modeling with realistic user personas; and interdisciplinary knowledge integration across diverse domains. We evaluated 12 mainstream LLMs on LPFQA and observed significant performance disparities, especially in specialized reasoning tasks. LPFQA provides a robust, authentic, and discriminative benchmark for advancing LLM evaluation and guiding future model development.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、質問応答、専門的なアプリケーションにおいて急速に進歩しているが、それらの真の能力は既存のベンチマークを使って評価することが難しいままである。
現在のデータセットは、しばしば単純化されたタスクや人工シナリオに焦点を合わせ、ロングテールの知識や現実世界のアプリケーションの複雑さを見下ろしている。
このギャップを埋めるためのLPFQAは,20の学術・産業分野にまたがる専門家フォーラムから派生した,実践的な専門知識に基づく502のタスクを網羅した長尾な知識ベースベンチマークである。
LPFQAは、知識深度、推論、用語理解、文脈分析をターゲットにしたきめ細かい評価次元、意味的明瞭さと独特な答えを保証する階層的な難易度構造、現実的なユーザペルソナによる真のプロのシナリオモデリング、さまざまなドメインにわたる学際的な知識統合という4つの重要なイノベーションを導入している。
LPFQAで12個のLLMを評価し,特に特殊推論タスクにおいて有意な性能差が認められた。
LPFQAは、LCMの評価を進歩させ、将来のモデル開発を導くために、堅牢で、本物で、差別的なベンチマークを提供する。
関連論文リスト
- Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field [12.465017512854475]
大規模言語モデル(LLM)は、アーキテクチャ、エンジニアリング、建設(AEC)分野において採用が増えている。
本稿では,AEC領域における現在のLLMの強度と限界を定量化するベンチマークであるAECBenchを確立する。
ベンチマークでは、23の代表的なタスクを5段階の認知指向評価フレームワークで定義している。
論文 参考訳(メタデータ) (2025-09-23T08:09:58Z) - Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [20.08235311648655]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。
MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。
既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文 参考訳(メタデータ) (2025-05-16T11:01:01Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。