論文の概要: KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?
- arxiv url: http://arxiv.org/abs/2601.13240v1
- Date: Mon, 19 Jan 2026 17:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.988042
- Title: KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?
- Title(参考訳): KOCO-BENCH: 大規模言語モデルはソフトウェア開発においてドメインの知識を活用することができるか?
- Authors: Xue Jiang, Jiaru Qian, Xianjie Shi, Chenjie Li, Hao Zhu, Ziyu Wang, Jielun Zhang, Zheyu Zhao, Kechi Zhang, Jia Li, Wenpin Jiao, Zhi Jin, Ge Li, Yihong Dong,
- Abstract要約: 大規模言語モデル(LLM)は汎用プログラミングに優れるが、ドメイン固有のソフトウェア開発に苦戦する。
既存のドメイン固有のコードベンチマークでは、ドメインの特殊化手法の有効性を評価できない。
実世界のソフトウェア開発における領域特化手法を評価するための新しいベンチマークであるKOCO-BENCHを提案する。
- 参考スコア(独自算出の注目度): 58.85952408038657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at general programming but struggle with domain-specific software development, necessitating domain specialization methods for LLMs to learn and utilize domain knowledge and data. However, existing domain-specific code benchmarks cannot evaluate the effectiveness of domain specialization methods, which focus on assessing what knowledge LLMs possess rather than how they acquire and apply new knowledge, lacking explicit knowledge corpora for developing domain specialization methods. To this end, we present KOCO-BENCH, a novel benchmark designed for evaluating domain specialization methods in real-world software development. KOCO-BENCH contains 6 emerging domains with 11 software frameworks and 25 projects, featuring curated knowledge corpora alongside multi-granularity evaluation tasks including domain code generation (from function-level to project-level with rigorous test suites) and domain knowledge understanding (via multiple-choice Q&A). Unlike previous benchmarks that only provide test sets for direct evaluation, KOCO-BENCH requires acquiring and applying diverse domain knowledge (APIs, rules, constraints, etc.) from knowledge corpora to solve evaluation tasks. Our evaluations reveal that KOCO-BENCH poses significant challenges to state-of-the-art LLMs. Even with domain specialization methods (e.g., SFT, RAG, kNN-LM) applied, improvements remain marginal. Best-performing coding agent, Claude Code, achieves only 34.2%, highlighting the urgent need for more effective domain specialization methods. We release KOCO-BENCH, evaluation code, and baselines to advance further research at https://github.com/jiangxxxue/KOCO-bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、汎用プログラミングでは優れているが、ドメイン固有のソフトウェア開発に苦慮している。
しかし、既存のドメイン固有コードベンチマークでは、LLMの持つ知識の獲得や適用方法よりも、LLMの持つ知識を評価することに焦点を当てたドメイン特化手法の有効性を評価することができず、ドメイン特化手法を開発するための明示的な知識コーパスが欠如している。
そこで本研究では,実世界のソフトウェア開発におけるドメイン特化手法を評価するための新しいベンチマークであるKOCO-BENCHを提案する。
KOCO-BENCHには、11のソフトウェアフレームワークと25のプロジェクトを持つ6つの新興ドメインが含まれている。
直接評価のためのテストセットのみを提供する以前のベンチマークとは異なり、Koco-BENCHは、評価タスクを解決するために、知識コーパスから多様なドメイン知識(API、ルール、制約など)を取得し、適用する必要がある。
評価の結果,KOCO-BENCHは最先端のLLMに重大な課題をもたらすことが明らかとなった。
ドメイン特殊化手法(例えば、SFT、RAG、kNN-LM)を適用しても、改善は限界を保ったままである。
最高のパフォーマンスのコーディングエージェントであるClaude Codeは34.2%しか達成していない。
KOCO-BENCH、評価コード、ベースラインをリリースし、https://github.com/jiangxxxue/KOCO-bench.comでさらなる研究を進めます。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。
私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文 参考訳(メタデータ) (2023-12-04T05:41:02Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。