論文の概要: Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models
- arxiv url: http://arxiv.org/abs/2512.04673v1
- Date: Thu, 04 Dec 2025 11:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.124404
- Title: Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models
- Title(参考訳): 汎用およびコード特有な大規模言語モデルのクロスタスクベンチマークと評価
- Authors: Gunjan Das, Paheli Bhattacharya, Rishabh Gupta,
- Abstract要約: 大規模言語モデル(LLM)は、一般的な自然言語処理と、コード合成、法的推論、財務といったドメイン固有のアプリケーションの両方に革命をもたらした。
そこで本研究では,6つのベンチマークで5つの汎用および3つのコード固有LLMの総合評価を行った。
コードに最適化されたモデル(例えば、CodeLLaMAの変種)は強力な推論と構文的精度を示し、非コーディングタスクでも測定可能な性能向上を示す。
- 参考スコア(独自算出の注目度): 3.603673783661375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized both general natural language processing and domain-specific applications such as code synthesis, legal reasoning, and finance. However, while prior studies have explored individual model capabilities, a systematic cross-domain comparison that unifies linguistic, reasoning, and code understanding abilities remains underexplored. In this work, we present a comprehensive evaluation of five general-purpose and three code-specific state-of-the-art LLMs across six diverse benchmarks encompassing linguistic competence, mathematical reasoning, and trustworthiness. Additionally, we analyze model behavior on the CoNaLa dataset for code explanation, comparing natural language and code-specialized LLMs. Our findings reveal that models optimized for code (e.g., CodeLLaMA variants) exhibit strong reasoning and syntactic precision, that even for non-coding tasks can show measurable performance gains, in contrast to general-purpose models like Mistral-7B and Llama-3-8B.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的な自然言語処理と、コード合成、法的推論、財務といったドメイン固有のアプリケーションの両方に革命をもたらした。
しかし、先行研究は個々のモデル能力について検討してきたが、言語、推論、コード理解能力を統一する体系的なクロスドメイン比較はまだ未熟である。
本研究では,言語能力,数学的推論,信頼性の6つのベンチマークを対象とし,汎用性およびコード固有の3つのLLMの総合評価を行う。
さらに、コード説明のためのCoNaLaデータセットのモデル挙動を分析し、自然言語とコード固有化LLMを比較した。
その結果、コードに最適化されたモデル(例えば、CodeLLaMAの変種)は強力な推論と構文的精度を示し、非コーディングタスクであってもMistral-7BやLlama-3-8Bのような汎用モデルとは対照的に、測定可能な性能向上を示すことがわかった。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - On Code-Induced Reasoning in LLMs [21.875805779552564]
並列命令データセットを10のプログラミング言語で構築する。
コードの構造的・意味的特性を選択的に破壊する制御摂動を適用する。
以上の結果から,LLMは意味論的よりも構造的摂動に弱いことが示唆された。
論文 参考訳(メタデータ) (2025-09-25T19:57:36Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Analysis on LLMs Performance for Code Summarization [0.0]
大規模言語モデル(LLM)は、コード要約の分野を著しく進歩させてきた。
本研究の目的は,LLaMA-3,Phi-3,Mistral,GemmaなどのオープンソースLLMの比較分析を行うことである。
論文 参考訳(メタデータ) (2024-12-22T17:09:34Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。