Fugu-MT 論文翻訳(概要): Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents

論文の概要: Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents

arxiv url: http://arxiv.org/abs/2506.00172v1
Date: Fri, 30 May 2025 19:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.478052
Title: Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents
Title（参考訳）: ブレークポイント:LLMコードエージェントにおけるシステムレベルの推論のスケーラブルな評価
Authors: Kaivalya Hariharan, Uzay Girit, Atticus Wang, Jacob Andreas,
Abstract要約: 本稿では,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。我々の手法は、最も簡単なタスクの55%から最も難しいタスクの0%まで、最先端のモデルの成功率で任意の難易度にスケール可能であることを実証する。
参考スコア（独自算出の注目度）: 40.37993572657772
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benchmarks for large language models (LLMs) have predominantly assessed short-horizon, localized reasoning. Existing long-horizon suites (e.g. SWE-bench) rely on manually curated issues, so expanding or tuning difficulty demands expensive human effort and evaluations quickly saturate. However, many real-world tasks, such as software engineering or scientific research, require agents to rapidly comprehend and manipulate novel, complex structures dynamically; evaluating these capabilities requires the ability to construct large and varied sets of problems for agents to solve. We introduce Breakpoint, a benchmarking methodology that automatically generates code-repair tasks by adversarially corrupting functions within real-world software repositories. Breakpoint systematically controls task difficulty along two clear dimensions: local reasoning (characterized by code complexity metrics such as cyclomatic complexity) and system-level reasoning (characterized by call-graph centrality and the number of simultaneously corrupted interdependent functions). In experiments across more than 900 generated tasks we demonstrate that our methodology can scale to arbitrary difficulty, with state-of-the-art models' success rates ranging from 55% on the easiest tasks down to 0% on the hardest.
Abstract（参考訳）: 大規模言語モデル (LLMs) のベンチマークでは、主に短水平、局所的推論が評価されている。既存のロングホライゾン・スイート(例えばSWEベンチ)は手作業でキュレートされた問題に依存しているため、難易度を拡大または調整するには高価な人的努力が必要であり、評価は急速に飽和する。しかし、ソフトウェア工学や科学研究のような現実世界の多くのタスクでは、エージェントが新しい複雑な構造を動的に理解し、迅速に操作する必要がある。本稿では,実世界のソフトウェアリポジトリ内の関数を逆転することで,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。ブレークポイントは2つの明確な次元に沿ってタスクの難易度を体系的に制御する: 局所推論(サイクロマティックな複雑さのようなコードの複雑さのメトリクスによって特徴付けられる)とシステムレベルの推論(コールグラフの集中度と同時に腐敗した相互依存関数の数によって特徴付けられる)。 900以上のタスクを対象とした実験では、我々の方法論が任意の難易度にスケール可能であることを示し、最先端モデルの成功率は、最も簡単なタスクでは55%から最も難しいタスクでは0%まで様々である。

関連論文リスト

Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems [0.0]
ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
論文参考訳（メタデータ） (2025-08-05T21:50:52Z)
CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [12.465309397733249]
大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
論文参考訳（メタデータ） (2025-07-03T01:35:58Z)
Hierarchical Reasoning Model [16.223136644998203]
HRMは、中間プロセスの明示的な監督なしに、1つのフォワードパスでシーケンシャルな推論タスクを実行する。 2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-26T19:39:54Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。評価ベンチマークを作成するためにCHASEを実装している。これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文参考訳（メタデータ） (2025-02-20T16:09:55Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文参考訳（メタデータ） (2023-08-29T13:36:45Z)
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-18T16:21:40Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。