論文の概要: LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
- arxiv url: http://arxiv.org/abs/2509.09614v1
- Date: Thu, 11 Sep 2025 16:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.483319
- Title: LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
- Title(参考訳): LoCoBench: 複雑なソフトウェア工学における長期的大規模言語モデルのベンチマーク
- Authors: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang,
- Abstract要約: LoCoBenchは、現実的で複雑なソフトウェア開発シナリオにおいて、長いコンテキストのLLMを評価するために特別に設計されたベンチマークである。
ベンチマークでは,10言語にまたがって8000の評価シナリオを体系的に生成する。
LoCoBenchは8つのタスクカテゴリを導入し、重要なコンテキスト理解機能をキャプチャしている。
- 参考スコア(独自算出の注目度): 85.58151741052616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of long-context language models with context windows extending to millions of tokens has created new opportunities for sophisticated code understanding and software development evaluation. We propose LoCoBench, a comprehensive benchmark specifically designed to evaluate long-context LLMs in realistic, complex software development scenarios. Unlike existing code evaluation benchmarks that focus on single-function completion or short-context tasks, LoCoBench addresses the critical evaluation gap for long-context capabilities that require understanding entire codebases, reasoning across multiple files, and maintaining architectural consistency across large-scale software systems. Our benchmark provides 8,000 evaluation scenarios systematically generated across 10 programming languages, with context lengths spanning 10K to 1M tokens, a 100x variation that enables precise assessment of long-context performance degradation in realistic software development settings. LoCoBench introduces 8 task categories that capture essential long-context capabilities: architectural understanding, cross-file refactoring, multi-session development, bug investigation, feature implementation, code comprehension, integration testing, and security analysis. Through a 5-phase pipeline, we create diverse, high-quality scenarios that challenge LLMs to reason about complex codebases at unprecedented scale. We introduce a comprehensive evaluation framework with 17 metrics across 4 dimensions, including 8 new evaluation metrics, combined in a LoCoBench Score (LCBS). Our evaluation of state-of-the-art long-context models reveals substantial performance gaps, demonstrating that long-context understanding in complex software development represents a significant unsolved challenge that demands more attention. LoCoBench is released at: https://github.com/SalesforceAIResearch/LoCoBench.
- Abstract(参考訳): コンテキストウィンドウが数百万のトークンにまで拡張された長いコンテキスト言語モデルの出現は、洗練されたコード理解とソフトウェア開発評価の新しい機会を生み出しました。
提案するLoCoBenchは,現実的かつ複雑なソフトウェア開発シナリオにおいて,LLMの長文評価に特化して設計された総合ベンチマークである。
単一機能補完やショートコンテクストタスクにフォーカスする既存のコード評価ベンチマークとは異なり、LoCoBenchはコードベース全体の理解、複数のファイル間の推論、大規模ソフトウェアシステム間のアーキテクチャ一貫性の維持を必要とする長期コンテキスト機能に対する重要な評価ギャップに対処する。
我々のベンチマークでは、10のプログラミング言語で8000のシナリオを体系的に生成し、コンテキスト長は10Kから100Mのトークンにまたがる。
LoCoBench氏は、アーキテクチャ理解、クロスファイルリファクタリング、マルチセッション開発、バグ調査、機能実装、コード理解、統合テスト、セキュリティ分析といった、重要な長期コンテキスト機能を捉える8つのタスクカテゴリを紹介した。
5フェーズのパイプラインを通じて、LEMに対して前例のない規模で複雑なコードベースを推論する、多種多様な高品質なシナリオを作成します。
筆者らは,LoCoBench Score(LCBS)に合計8つの新しい評価指標を含む,4次元にわたる17の指標を備えた総合評価フレームワークを導入する。
最先端の長期コンテキストモデルに対する我々の評価は、複雑なソフトウェア開発における長期コンテキストの理解が、より注意を要する重要な未解決課題であることを示している。
LoCoBenchは、https://github.com/SalesforceAIResearch/LoCoBench.comでリリースされた。
関連論文リスト
- SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - LongCodeBench: Evaluating Coding LLMs at 1M Context Windows [32.93947506522558]
我々は、コード理解と修復を、長期コンテキストモデルの自然なテストベッドと課題として認識する。
我々はLongCodeBenchを紹介した。LongCodeBenchは、Long-contextのシナリオでLLMのコーディング能力をテストするためのベンチマークである。
私たちは、Claude 3.5 Sonnetの29%から3%のパフォーマンス低下など、ロングコンテキストがすべてのモデルにとって弱点であることに気付きました。
論文 参考訳(メタデータ) (2025-05-12T05:38:03Z) - CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。
CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文 参考訳(メタデータ) (2025-04-29T11:57:23Z) - ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code [29.178248778212588]
ComplexCodeEvalは、様々な開発タスクで大きな言語モデル(LLM)を評価するために設計されたベンチマークである。
これには、上位のGitHubリポジトリから3,897のJavaサンプルと7,184のPythonサンプルが含まれている。
論文 参考訳(メタデータ) (2024-09-16T13:43:04Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context? [43.98513461616172]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。