Fugu-MT 論文翻訳(概要): LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding

論文の概要: LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding

arxiv url: http://arxiv.org/abs/2503.04359v1
Date: Thu, 06 Mar 2025 12:02:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.814335
Title: LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding
Title（参考訳）: LONGCODEU:Long Code Understanding上でのLong-Context言語モデルのベンチマーク
Authors: Jia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin,
Abstract要約: Long code understanding benchmark LONGCODEU to evaluate LCLMs' long code understanding ability required for practical applications。 LCLMの性能は、長いコード長が32Kを超えると劇的に低下し、128K-1Mのコンテキストウィンドウよりもはるかに低下した。我々の研究は、LCLMを最適化し、ソフトウェア工学の進歩を推進するための貴重な洞察を提供する。
参考スコア（独自算出の注目度）: 69.93924733846576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current advanced long-context language models offer great potential for real-world software engineering applications. However, progress in this critical domain remains hampered by a fundamental limitation: the absence of a rigorous evaluation framework for long code understanding. To gap this obstacle, we propose a long code understanding benchmark LONGCODEU from four aspects (8 tasks) to evaluate LCLMs' long code understanding ability required for practical applications, including code unit perception, intra-code unit understanding, inter-code unit relation understanding, and long code documentation understanding. We evaluate 9 popular LCLMs on LONGCODEU (i.e., 6 general models and 3 code models). Our experimental results reveal key limitations in current LCLMs' capabilities for long code understanding. Particularly, the performance of LCLMs drops dramatically when the long code length is greater than 32K, falling far short of their claimed 128K-1M context windows. In the four aspects, inter-code unit relation understanding is the most challenging for LCLMs. Our study provides valuable insights for optimizing LCLMs and driving advancements in software engineering.
Abstract（参考訳）: 現在の高度な長文言語モデルは、現実世界のソフトウェア工学アプリケーションに大きな可能性を秘めている。しかし、この重要なドメインの進歩は、基本的な制限によって妨げられている: 長いコード理解のための厳格な評価フレームワークがない。この障害を解消するために、LCLMのコード単位認識、コード内単位理解、コード間の関係理解、コード間の関係理解、長いコード文書理解など、実用的なアプリケーションに必要な長いコード理解能力を評価するために、4つの側面(8タスク)からLONGCODEUの長いコード理解ベンチマークを提案する。我々は、LONGCODEU(一般的な6つのモデルと3つのコードモデル)上で9つの人気のあるLCLMを評価した。実験結果から,LCLMの長文理解能力に限界があることが判明した。特に、長いコード長が32Kを超えるとLCLMの性能は劇的に低下し、128K-1Mのコンテキストウィンドウよりもはるかに低下する。 4つの側面において、コード間の単位関係理解はLCLMにとって最も難しい。我々の研究は、LCLMを最適化し、ソフトウェア工学の進歩を推進するための貴重な洞察を提供する。

関連論文リスト

Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文参考訳（メタデータ） (2025-06-24T13:02:35Z)
How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文参考訳（メタデータ） (2025-04-06T05:59:29Z)
Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。 CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文参考訳（メタデータ） (2024-10-16T20:05:59Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文参考訳（メタデータ） (2023-08-30T16:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。