論文の概要: TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework
- arxiv url: http://arxiv.org/abs/2606.05570v1
- Date: Thu, 04 Jun 2026 01:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.476408
- Title: TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework
- Title(参考訳): TensorBench: コンパイラベースのテンソルフレームワーク上でのコーディングエージェントのベンチマーク
- Authors: Bobby Yan, Fredrik Kjolstad,
- Abstract要約: CohenBenchはオープンソースのコンパイラベースのフレームワーク上のタスクのベンチマークである。
エージェントのパッチを適用して、フレームワークのテストスイートを実行することで、各実行をグレードする。
3つのフロンティアモデルファミリーと1つのオープンウェイトモデルにまたがる7つの符号化エージェントを評価した。
- 参考スコア(独自算出の注目度): 0.9012337166501982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repository-level coding benchmarks face a trade-off between task difficulty and evaluation reliability: tasks that challenge frontier models often involve large codebases with incomplete test coverage, while human review does not scale. We introduce TensorBench, a benchmark of 199 feature-addition and refactoring tasks on an open-source compiler-based tensor framework that extends PyTorch with first-class support for dense and sparse tensors. Tasks cover new sparse formats, dense optimization passes, IR transformations, scheduler changes, runtime components, and high-level numerical operators. TensorBench grades each run by applying the agent's patch and running the framework's test suite, which includes the pre-existing randomized regression tests and any tests the agent adds. For feature-addition tasks, a pass means that the patched repository preserves the tested pre-existing behavior and satisfies the agent-added checks for the requested feature. We evaluate seven coding agents spanning three frontier model families and one open-weight model. Pass rates under this criterion range from $64.8\%$ for the strongest agent to $22.1\%$ for the weakest. Agents pass different subsets of tasks: pairwise Cohen's $κ$ ranges from $-0.07$ to $0.43$, with $κ= 0.05$ for the two strongest agents.
- Abstract(参考訳): フロンティアモデルに挑戦するタスクは、テストカバレッジが不完全な大規模なコードベースを伴うことが多いが、人間のレビューはスケールしない。
我々は、PyTorchを拡張したオープンソースのコンパイラベースのテンソルフレームワーク上で、199の機能追加およびリファクタリングタスクのベンチマークであるTensorBenchを紹介した。
タスクは、新しいスパースフォーマット、密集した最適化パス、IR変換、スケジューラの変更、ランタイムコンポーネント、高レベルの数値演算子をカバーする。
TensorBenchは、エージェントのパッチを適用し、既存のランダム化回帰テストとエージェントが追加するテストを含むフレームワークのテストスイートを実行することで、それぞれをグレードする。
機能追加タスクの場合、パスとは、パッチされたリポジトリがテスト済みの動作を保持し、要求された機能のエージェント追加チェックを満たすことを意味する。
3つのフロンティアモデルファミリーと1つのオープンウェイトモデルにまたがる7つの符号化エージェントを評価した。
この基準の下でのパスレートは、最強のエージェントが64.8.%、最も弱いエージェントが22.1.%である。
エージェントは異なるタスクのサブセットを渡す: ペアワイズ コーエンの$κ$は$-0.07$から$0.43$までの範囲で、2つの最強エージェントに対して$κ= 0.05$である。
関連論文リスト
- Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks [25.713629634281077]
ツール・シークエンス・エボリューションによるタスク・シンセサイザー(TASTE: Task Synthesis from Tool Sequence Evolution)を提案する。
TASTEはクラスタリングを通じてプールから代表シーケンスを選択し、それらを完全なベンチマークタスクにインスタンス化し、難易度進化を通じてそれらを洗練する。
以上の結果から,既存のベンチマークにおける高いスコアは,頑健なタスク解決能力よりも飽和度を反映していることが示唆された。
論文 参考訳(メタデータ) (2026-05-27T14:45:59Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning [14.185814237633958]
Descent-Guided Policy Gradient (DG-PG) は、ノイズフリーなエージェントごとのガイダンス勾配を構築するフレームワークである。
DG-PGは、勾配分散を$(N)$から$mathcalO(1)$に減らし、協調ゲームの平衡を保ち、エージェント非依存のサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2026-02-23T17:45:08Z) - ATTest: Agent-Driven Tensor Testing for Deep Learning Library Modules [19.355376741404267]
ディープラーニング(DL)ライブラリの単体テストは、複雑な数値意味論と暗黙のテンソル制約のために困難である。
本稿では,モジュールレベルの単体テスト生成のためのエージェント駆動テストフレームワークであるATTestを提案する。
論文 参考訳(メタデータ) (2026-02-15T04:47:58Z) - OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding [57.39403818250357]
ここでは,レポジトリベースエージェントコーディングにおける足場認識命令のベンチマークを行うOctoBenchを紹介する。
OctoBenchは34の環境と217のタスクを3つの足場タイプでインスタンス化し、7,098の客観的チェックリストアイテムとペアリングする。
実験により、タスク解決と足場対応の体系的なギャップが明らかになり、トレーニングと評価の必要性が強調される。
論文 参考訳(メタデータ) (2026-01-15T12:36:08Z) - Agentic Rubrics as Contextual Verifiers for SWE Agents [8.469998524915818]
本稿では,エージェントルーブリックがSWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示す。
結果から,Agenic rubricsは接地トルーステストと整合性を示し,テストが捉えない問題をフラグ付けする。
論文 参考訳(メタデータ) (2026-01-07T18:38:23Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。