Fugu-MT 論文翻訳(概要): KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?

論文の概要: KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?

arxiv url: http://arxiv.org/abs/2601.13240v1
Date: Mon, 19 Jan 2026 17:20:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.988042
Title: KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?
Title（参考訳）: KOCO-BENCH: 大規模言語モデルはソフトウェア開発においてドメインの知識を活用することができるか?
Authors: Xue Jiang, Jiaru Qian, Xianjie Shi, Chenjie Li, Hao Zhu, Ziyu Wang, Jielun Zhang, Zheyu Zhao, Kechi Zhang, Jia Li, Wenpin Jiao, Zhi Jin, Ge Li, Yihong Dong,
Abstract要約: 大規模言語モデル(LLM)は汎用プログラミングに優れるが、ドメイン固有のソフトウェア開発に苦戦する。既存のドメイン固有のコードベンチマークでは、ドメインの特殊化手法の有効性を評価できない。実世界のソフトウェア開発における領域特化手法を評価するための新しいベンチマークであるKOCO-BENCHを提案する。
参考スコア（独自算出の注目度）: 58.85952408038657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) excel at general programming but struggle with domain-specific software development, necessitating domain specialization methods for LLMs to learn and utilize domain knowledge and data. However, existing domain-specific code benchmarks cannot evaluate the effectiveness of domain specialization methods, which focus on assessing what knowledge LLMs possess rather than how they acquire and apply new knowledge, lacking explicit knowledge corpora for developing domain specialization methods. To this end, we present KOCO-BENCH, a novel benchmark designed for evaluating domain specialization methods in real-world software development. KOCO-BENCH contains 6 emerging domains with 11 software frameworks and 25 projects, featuring curated knowledge corpora alongside multi-granularity evaluation tasks including domain code generation (from function-level to project-level with rigorous test suites) and domain knowledge understanding (via multiple-choice Q&A). Unlike previous benchmarks that only provide test sets for direct evaluation, KOCO-BENCH requires acquiring and applying diverse domain knowledge (APIs, rules, constraints, etc.) from knowledge corpora to solve evaluation tasks. Our evaluations reveal that KOCO-BENCH poses significant challenges to state-of-the-art LLMs. Even with domain specialization methods (e.g., SFT, RAG, kNN-LM) applied, improvements remain marginal. Best-performing coding agent, Claude Code, achieves only 34.2%, highlighting the urgent need for more effective domain specialization methods. We release KOCO-BENCH, evaluation code, and baselines to advance further research at https://github.com/jiangxxxue/KOCO-bench.
Abstract（参考訳）: 大規模言語モデル(LLM)は、汎用プログラミングでは優れているが、ドメイン固有のソフトウェア開発に苦慮している。しかし、既存のドメイン固有コードベンチマークでは、LLMの持つ知識の獲得や適用方法よりも、LLMの持つ知識を評価することに焦点を当てたドメイン特化手法の有効性を評価することができず、ドメイン特化手法を開発するための明示的な知識コーパスが欠如している。そこで本研究では,実世界のソフトウェア開発におけるドメイン特化手法を評価するための新しいベンチマークであるKOCO-BENCHを提案する。 KOCO-BENCHには、11のソフトウェアフレームワークと25のプロジェクトを持つ6つの新興ドメインが含まれている。直接評価のためのテストセットのみを提供する以前のベンチマークとは異なり、Koco-BENCHは、評価タスクを解決するために、知識コーパスから多様なドメイン知識(API、ルール、制約など)を取得し、適用する必要がある。評価の結果,KOCO-BENCHは最先端のLLMに重大な課題をもたらすことが明らかとなった。ドメイン特殊化手法(例えば、SFT、RAG、kNN-LM)を適用しても、改善は限界を保ったままである。最高のパフォーマンスのコーディングエージェントであるClaude Codeは34.2%しか達成していない。 KOCO-BENCH、評価コード、ベースラインをリリースし、https://github.com/jiangxxxue/KOCO-bench.comでさらなる研究を進めます。

関連論文リスト

Learning Domain Knowledge in Multimodal Large Language Models through Reinforcement Fine-Tuning [38.73465144699025]
入力レベルのドメイン知識注入は、科学的なマルチモーダルタスクにおいてほとんど、あるいは全く改善しないことを示す。本稿では,ドメイン知識を直接学習対象に組み込む強化微調整フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-23T03:10:08Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark [38.14474956762422]
DomainCodeBenchは、12のソフトウェアアプリケーションドメインと15のプログラミング言語にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。トップ・ジェネラル・ドメイン・モデルは特定のアプリケーション・ドメインで一貫して排他的でないことが分かりました。ドメイン固有の知識による拡張プロンプトは、パフォーマンスを約38.17%向上させる。
論文参考訳（メタデータ） (2024-12-24T17:56:08Z)
Learning to Solve Domain-Specific Calculation Problems with Knowledge-Intensive Programs Generator [33.680619900836376]
本稿では,知識集中型プログラム生成器を用いて,ドメイン固有の計算問題を解くパイプラインを提案する。ドメイン固有の文書に従って知識集約型プログラムを生成する。また、コードジェネレータは、新しい知識をトレーニングすることなく、他のドメインにも適用可能であることもわかりました。
論文参考訳（メタデータ） (2024-12-12T13:42:58Z)
EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations [87.34429475432998]
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。 EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
論文参考訳（メタデータ） (2024-10-30T08:57:59Z)
On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文参考訳（メタデータ） (2023-12-04T05:41:02Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)
Prior Knowledge Guided Unsupervised Domain Adaptation [82.9977759320565]
本稿では,対象とするクラス分布に関する事前知識を利用できる知識誘導型非教師付きドメイン適応(KUDA)設定を提案する。特に,対象領域におけるクラス分布に関する2種類の事前知識について考察する。このような事前知識を用いて生成した擬似ラベルを精査する修正モジュールを提案する。
論文参考訳（メタデータ） (2022-07-18T18:41:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。