論文の概要: LongCodeBench: Evaluating Coding LLMs at 1M Context Windows
- arxiv url: http://arxiv.org/abs/2505.07897v1
- Date: Mon, 12 May 2025 05:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.269138
- Title: LongCodeBench: Evaluating Coding LLMs at 1M Context Windows
- Title(参考訳): LongCodeBench: 100MコンテキストWindowsでのコーディングLLMの評価
- Authors: Stefano Rando, Luca Romani, Alessio Sampieri, Yuta Kyuragi, Luca Franco, Fabio Galasso, Tatsunori Hashimoto, John Yang,
- Abstract要約: 我々は、コード理解と修復を、長期コンテキストモデルの自然なテストベッドと課題として認識する。
我々はLongCodeBenchを紹介した。LongCodeBenchは、Long-contextのシナリオでLLMのコーディング能力をテストするためのベンチマークである。
私たちは、Claude 3.5 Sonnetの29%から3%のパフォーマンス低下など、ロングコンテキストがすべてのモデルにとって弱点であることに気付きました。
- 参考スコア(独自算出の注目度): 32.93947506522558
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Context lengths for models have grown rapidly, from thousands to millions of tokens in just a few years. The extreme context sizes of modern long-context models have made it difficult to construct realistic long-context benchmarks -- not only due to the cost of collecting million-context tasks but also in identifying realistic scenarios that require significant contexts. We identify code comprehension and repair as a natural testbed and challenge task for long-context models and introduce LongCodeBench (LCB), a benchmark to test LLM coding abilities in long-context scenarios. Our benchmark tests both the comprehension and repair capabilities of LCLMs in realistic and important settings by drawing from real-world GitHub issues and constructing QA (LongCodeQA) and bug fixing (LongSWE-Bench) tasks. We carefully stratify the complexity of our benchmark, enabling us to evaluate models across different scales -- ranging from Qwen2.5 14B Instruct to Google's flagship Gemini model. We find that long-context remains a weakness for all models, with performance drops such as from 29% to 3% for Claude 3.5 Sonnet, or from 70.2% to 40% for Qwen2.5.
- Abstract(参考訳): モデルにおけるコンテクストの長さは、わずか数年で数千から数百万のトークンへと急速に成長した。
現代の長期コンテキストモデルの極端なコンテキストサイズは、現実的な長期コンテキストのベンチマークを構築するのを困難にしている。
本稿では,LongCodeBench (LCB) を導入し,LongCodeBench (LCB) を用いたLongCodeBench (LongCodeBench) によるLongCodeBench (LongCodeBench) の検証を行った。
当社のベンチマークでは,現実的なGitHub問題から抽出し,QA(LongCodeQA)とバグ修正(LongSWE-Bench)タスクを構築することで,LCLMの理解と修復の両機能を,現実的かつ重要な設定でテストしています。
Qwen2.5 14B InstructからGoogleのフラッグシップモデルであるGeminiまで、さまざまなスケールでモデルを評価することが可能です。
長いコンテキストはすべてのモデルにとって弱点であり、クロード3.5ソンネットでは29%から3%、Qwen2.5では70.2%から40%のパフォーマンス低下がある。
関連論文リスト
- LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks [74.96182906307654]
本稿では,LongBench v2を提案する。LongBench v2は,LLMが長期コンテキスト問題に対処する能力を評価するためのベンチマークである。
LongBench v2は、503の挑戦的な複数選択の質問で構成され、コンテキストは8kから200M語で、6つの主要なタスクカテゴリにまたがる。
我々は、品質と難易度を維持するために、自動レビュープロセスと手動レビュープロセスの両方を使用し、その結果15分間の制約の下で、人間の専門家は53.7%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2024-12-19T18:59:17Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context? [43.98513461616172]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models [45.892014195594314]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。