論文の概要: OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding
- arxiv url: http://arxiv.org/abs/2601.10343v1
- Date: Thu, 15 Jan 2026 12:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.133095
- Title: OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding
- Title(参考訳): OctoBench: Repository-Grounded Agentic Coding における Scaffold-Aware Instruction のベンチマーク
- Authors: Deming Ding, Shichun Liu, Enhui Yang, Jiahang Lin, Ziying Chen, Shihan Dou, Honglin Guo, Weiyu Cheng, Pengyu Zhao, Chengjun Xiao, Qunhong Zeng, Qi Zhang, Xuanjing Huang, Qidi Xu, Tao Gui,
- Abstract要約: ここでは,レポジトリベースエージェントコーディングにおける足場認識命令のベンチマークを行うOctoBenchを紹介する。
OctoBenchは34の環境と217のタスクを3つの足場タイプでインスタンス化し、7,098の客観的チェックリストアイテムとペアリングする。
実験により、タスク解決と足場対応の体系的なギャップが明らかになり、トレーニングと評価の必要性が強調される。
- 参考スコア(独自算出の注目度): 57.39403818250357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern coding scaffolds turn LLMs into capable software agents, but their ability to follow scaffold-specified instructions remains under-examined, especially when constraints are heterogeneous and persist across interactions. To fill this gap, we introduce OctoBench, which benchmarks scaffold-aware instruction following in repository-grounded agentic coding. OctoBench includes 34 environments and 217 tasks instantiated under three scaffold types, and is paired with 7,098 objective checklist items. To disentangle solving the task from following the rules, we provide an automated observation-and-scoring toolkit that captures full trajectories and performs fine-grained checks. Experiments on eight representative models reveal a systematic gap between task-solving and scaffold-aware compliance, underscoring the need for training and evaluation that explicitly targets heterogeneous instruction following. We release the benchmark to support reproducible benchmarking and to accelerate the development of more scaffold-aware coding agents.
- Abstract(参考訳): 現代のコーディングの足場は、LSMを有能なソフトウェアエージェントに変えるが、足場特定命令に従う能力は、特に制約が不均一であり、相互作用をまたいで持続している場合、未検討のままである。
このギャップを埋めるために、我々はOctoBenchを紹介します。
OctoBenchは34の環境と217のタスクを3つの足場タイプでインスタンス化し、7,098の客観的チェックリストアイテムとペアリングする。
タスクをルールに従わないようにするために,全軌道を捕捉し,きめ細かなチェックを行う自動観察・検査ツールキットを提供する。
8つの代表的なモデルの実験では、タスク解決と足場対応の体系的なギャップが示され、不均一な命令を明示的に対象とするトレーニングと評価の必要性が強調されている。
再現可能なベンチマークをサポートし、より足場対応のコーディングエージェントの開発を加速するためのベンチマークをリリースする。
関連論文リスト
- RepoMod-Bench: A Benchmark for Code Repository Modernization via Implementation-Agnostic Testing [1.4069797812477614]
本稿では,実装に依存しない評価パラダイムに基づく,リポジトリレベルのコードモダナイゼーションのためのベンチマークフレームワークを紹介する。
RepoMod-Benchは8つの言語にまたがる、標準化されたインターフェースを備えた21の現実世界リポジトリのベンチマークである。
ベンチマークには1.6万行のコード(LOC)と11,616のテストが含まれており、リポジトリのサイズは14~211KLOCである。
論文 参考訳(メタデータ) (2026-02-26T01:25:00Z) - CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence [0.0]
ナビゲーションと検索が根本的に異なる問題であるため,エージェントの動作は不十分である。
コードによるグラフベースの構造ナビゲーション - 依存性グラフを公開するModel Context Protocolサーバ - は、隠れ依存性タスクに対する99.4%のタスク補完を達成している。
論文 参考訳(メタデータ) (2026-02-23T16:58:37Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - RepoSummary: Feature-Oriented Summarization and Documentation Generation for Code Repositories [7.744086870383438]
RepoSummaryは機能指向のコードリポジトリ要約アプローチである。
同時にリポジトリドキュメンテーションを自動的に生成する。
機能機能から対応するコード要素へのより正確なトレーサビリティリンクを確立する。
論文 参考訳(メタデータ) (2025-10-13T06:16:44Z) - GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:48:05Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。