論文の概要: Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents
- arxiv url: http://arxiv.org/abs/2506.00172v1
- Date: Fri, 30 May 2025 19:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.478052
- Title: Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents
- Title(参考訳): ブレークポイント:LLMコードエージェントにおけるシステムレベルの推論のスケーラブルな評価
- Authors: Kaivalya Hariharan, Uzay Girit, Atticus Wang, Jacob Andreas,
- Abstract要約: 本稿では,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。
我々の手法は、最も簡単なタスクの55%から最も難しいタスクの0%まで、最先端のモデルの成功率で任意の難易度にスケール可能であることを実証する。
- 参考スコア(独自算出の注目度): 40.37993572657772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks for large language models (LLMs) have predominantly assessed short-horizon, localized reasoning. Existing long-horizon suites (e.g. SWE-bench) rely on manually curated issues, so expanding or tuning difficulty demands expensive human effort and evaluations quickly saturate. However, many real-world tasks, such as software engineering or scientific research, require agents to rapidly comprehend and manipulate novel, complex structures dynamically; evaluating these capabilities requires the ability to construct large and varied sets of problems for agents to solve. We introduce Breakpoint, a benchmarking methodology that automatically generates code-repair tasks by adversarially corrupting functions within real-world software repositories. Breakpoint systematically controls task difficulty along two clear dimensions: local reasoning (characterized by code complexity metrics such as cyclomatic complexity) and system-level reasoning (characterized by call-graph centrality and the number of simultaneously corrupted interdependent functions). In experiments across more than 900 generated tasks we demonstrate that our methodology can scale to arbitrary difficulty, with state-of-the-art models' success rates ranging from 55% on the easiest tasks down to 0% on the hardest.
- Abstract(参考訳): 大規模言語モデル (LLMs) のベンチマークでは、主に短水平、局所的推論が評価されている。
既存のロングホライゾン・スイート(例えばSWEベンチ)は手作業でキュレートされた問題に依存しているため、難易度を拡大または調整するには高価な人的努力が必要であり、評価は急速に飽和する。
しかし、ソフトウェア工学や科学研究のような現実世界の多くのタスクでは、エージェントが新しい複雑な構造を動的に理解し、迅速に操作する必要がある。
本稿では,実世界のソフトウェアリポジトリ内の関数を逆転することで,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。
ブレークポイントは2つの明確な次元に沿ってタスクの難易度を体系的に制御する: 局所推論(サイクロマティックな複雑さのようなコードの複雑さのメトリクスによって特徴付けられる)とシステムレベルの推論(コールグラフの集中度と同時に腐敗した相互依存関数の数によって特徴付けられる)。
900以上のタスクを対象とした実験では、我々の方法論が任意の難易度にスケール可能であることを示し、最先端モデルの成功率は、最も簡単なタスクでは55%から最も難しいタスクでは0%まで様々である。
関連論文リスト
- How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。
評価ベンチマークを作成するためにCHASEを実装している。
これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文 参考訳(メタデータ) (2025-02-20T16:09:55Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop
Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。
ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T16:21:40Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。