論文の概要: Domain Specific Benchmarks for Evaluating Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.12958v2
- Date: Fri, 20 Jun 2025 15:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.489481
- Title: Domain Specific Benchmarks for Evaluating Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデル評価のためのドメイン固有ベンチマーク
- Authors: Khizar Anjum, Muhammad Arbab Arshad, Kadhim Hayawi, Efstathios Polyzos, Asadullah Tariq, Mohamed Adel Serhani, Laiba Batool, Brady Lund, Nishith Reddy Mannuru, Ravi Varma Kumar Bevara, Taslim Mahbub, Muhammad Zeeshan Akram, Sakib Shahriar,
- Abstract要約: 大きな言語モデル(LLM)は、高度な推論と問題解決能力のために、規律を越えてデプロイされることが増えている。
本稿では,LLMを広く活用する領域や応用領域を網羅した,7つの重要な分野の分類について紹介する。
我々はこれらのベンチマークをドメイン単位でコンパイルし、分類し、研究者のためのアクセス可能なリソースを作成します。
- 参考スコア(独自算出の注目度): 3.1546387965618337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly being deployed across disciplines due to their advanced reasoning and problem solving capabilities. To measure their effectiveness, various benchmarks have been developed that measure aspects of LLM reasoning, comprehension, and problem-solving. While several surveys address LLM evaluation and benchmarks, a domain-specific analysis remains underexplored in the literature. This paper introduces a taxonomy of seven key disciplines, encompassing various domains and application areas where LLMs are extensively utilized. Additionally, we provide a comprehensive review of LLM benchmarks and survey papers within each domain, highlighting the unique capabilities of LLMs and the challenges faced in their application. Finally, we compile and categorize these benchmarks by domain to create an accessible resource for researchers, aiming to pave the way for advancements toward artificial general intelligence (AGI)
- Abstract(参考訳): 大きな言語モデル(LLM)は、高度な推論と問題解決能力のために、規律を越えてデプロイされることが増えている。
LLM推論、理解、問題解決の側面を測定するための様々なベンチマークが開発されている。
いくつかの調査ではLCMの評価とベンチマークに対処しているが、ドメイン固有の分析は文献では未解明のままである。
本稿では,LLMを広く活用する領域や応用領域を網羅した,7つの重要な分野の分類について紹介する。
さらに、LLMベンチマークと各ドメイン内の調査論文の総合的なレビューを行い、LLMのユニークな機能とアプリケーションで直面している課題を強調します。
最後に、これらのベンチマークをドメイン単位でコンパイルして分類し、研究者のためのアクセス可能なリソースを作成し、人工知能(AGI)への進歩の道を開くことを目的とする。
関連論文リスト
- Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。
彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。
これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文 参考訳(メタデータ) (2025-02-15T07:43:43Z) - Evaluating LLM Reasoning in the Operations Research Domain with ORQA [19.72699080797411]
我々は,大規模言語モデル(LLM)の一般化能力を評価するために設計された新しいベンチマークであるOperations Research Question Answering(ORQA)を導入し,適用する。
このデータセットは、数学モデルを構築するために多段階推論を必要とする実世界の最適化問題を特徴としている。
LLaMA 3.1、DeepSeek、MixtralなどのオープンソースLLMの評価では、その質素な性能が明らかにされ、専門技術ドメインへの一般化能力のギャップが浮かび上がっている。
論文 参考訳(メタデータ) (2024-12-22T09:10:34Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。