Fugu-MT 論文翻訳(概要): Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models

論文の概要: Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models

arxiv url: http://arxiv.org/abs/2512.04673v1
Date: Thu, 04 Dec 2025 11:06:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:46.124404
Title: Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models
Title（参考訳）: 汎用およびコード特有な大規模言語モデルのクロスタスクベンチマークと評価
Authors: Gunjan Das, Paheli Bhattacharya, Rishabh Gupta,
Abstract要約: 大規模言語モデル(LLM)は、一般的な自然言語処理と、コード合成、法的推論、財務といったドメイン固有のアプリケーションの両方に革命をもたらした。そこで本研究では,6つのベンチマークで5つの汎用および3つのコード固有LLMの総合評価を行った。コードに最適化されたモデル(例えば、CodeLLaMAの変種)は強力な推論と構文的精度を示し、非コーディングタスクでも測定可能な性能向上を示す。
参考スコア（独自算出の注目度）: 3.603673783661375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have revolutionized both general natural language processing and domain-specific applications such as code synthesis, legal reasoning, and finance. However, while prior studies have explored individual model capabilities, a systematic cross-domain comparison that unifies linguistic, reasoning, and code understanding abilities remains underexplored. In this work, we present a comprehensive evaluation of five general-purpose and three code-specific state-of-the-art LLMs across six diverse benchmarks encompassing linguistic competence, mathematical reasoning, and trustworthiness. Additionally, we analyze model behavior on the CoNaLa dataset for code explanation, comparing natural language and code-specialized LLMs. Our findings reveal that models optimized for code (e.g., CodeLLaMA variants) exhibit strong reasoning and syntactic precision, that even for non-coding tasks can show measurable performance gains, in contrast to general-purpose models like Mistral-7B and Llama-3-8B.
Abstract（参考訳）: 大規模言語モデル(LLM)は、一般的な自然言語処理と、コード合成、法的推論、財務といったドメイン固有のアプリケーションの両方に革命をもたらした。しかし、先行研究は個々のモデル能力について検討してきたが、言語、推論、コード理解能力を統一する体系的なクロスドメイン比較はまだ未熟である。本研究では,言語能力,数学的推論,信頼性の6つのベンチマークを対象とし,汎用性およびコード固有の3つのLLMの総合評価を行う。さらに、コード説明のためのCoNaLaデータセットのモデル挙動を分析し、自然言語とコード固有化LLMを比較した。その結果、コードに最適化されたモデル(例えば、CodeLLaMAの変種)は強力な推論と構文的精度を示し、非コーディングタスクであってもMistral-7BやLlama-3-8Bのような汎用モデルとは対照的に、測定可能な性能向上を示すことがわかった。

関連論文リスト

CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
On Code-Induced Reasoning in LLMs [21.875805779552564]
並列命令データセットを10のプログラミング言語で構築する。コードの構造的・意味的特性を選択的に破壊する制御摂動を適用する。以上の結果から,LLMは意味論的よりも構造的摂動に弱いことが示唆された。
論文参考訳（メタデータ） (2025-09-25T19:57:36Z)
Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML [3.5515013986822073]
本研究は,Aのレベル管理部門と共同で実施した事例研究である。閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
論文参考訳（メタデータ） (2025-09-15T19:39:26Z)
mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文参考訳（メタデータ） (2025-08-13T18:59:02Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts [8.181151553582488]
textttScholarBenchは、大規模言語モデル(LLM)の学術的推論能力を評価するためのベンチマークである。このベンチマークは韓国語で5,031例、英語で5,309例で、o3-miniのような最先端のモデルでさえ、平均評価スコアは0.543点だった。
論文参考訳（メタデータ） (2025-05-22T11:59:06Z)
EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。 19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Analysis on LLMs Performance for Code Summarization [0.0]
大規模言語モデル(LLM)は、コード要約の分野を著しく進歩させてきた。本研究の目的は,LLaMA-3,Phi-3,Mistral,GemmaなどのオープンソースLLMの比較分析を行うことである。
論文参考訳（メタデータ） (2024-12-22T17:09:34Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。