論文の概要: Taming Scylla: Understanding the multi-headed agentic daemon of the coding seas
- arxiv url: http://arxiv.org/abs/2602.08765v1
- Date: Mon, 09 Feb 2026 15:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.314974
- Title: Taming Scylla: Understanding the multi-headed agentic daemon of the coding seas
- Title(参考訳): Taming Scylla: コーディング海のマルチヘッドエージェントデーモンを理解する
- Authors: Micah Villmow,
- Abstract要約: 本稿ではエージェントコーディングツールをベンチマークするための評価フレームワークであるScyllaを紹介する。
主要な指標はCoP(Cost-of-Pass)であり、複雑さと効率のトレードオフを直接的に定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based tools are automating more software development tasks at a rapid pace, but there is no rigorous way to evaluate how different architectural choices -- prompts, skills, tools, multi-agent setups -- materially affect both capability and cost. This paper introduces Scylla, an evaluation framework for benchmarking agentic coding tools through structured ablation studies that uses seven testing tiers (T0-T6) progressively adding complexity to isolate what directly influences results and how. The key metric is Cost-of-Pass (CoP): the expected dollar cost to get one correct solution, which directly quantifies the trade-off between complexity and efficiency. The framework is model-agnostic, designed to work with any CLI tool; this paper demonstrates it with Claude Sonnet 4.5, using multiple LLM judges (Opus 4.5, Sonnet 4.5, Haiku 4.5) from the same vendor for evaluation consensus, where judges score results using direct tests, human-designed LLM-evaluated rubrics, and qualitative assessment. The result is a reproducible framework that quantifies trade-offs between agent complexity and actual outcomes, suggesting that architectural complexity does not always improve quality.
- Abstract(参考訳): LLMベースのツールは、より多くのソフトウェア開発タスクを迅速に自動化していますが、異なるアーキテクチャ選択(プロンプト、スキル、ツール、マルチエージェント設定)が機能とコストの両方にどのように影響するかを評価するための厳密な方法はありません。
本稿では,7つのテスト層 (T0-T6) を用いてエージェントプログラミングツールのベンチマークを行うための評価フレームワークであるScyllaについて紹介する。
主要な指標はコスト・オブ・パス(CoP: Cost-of-Pass)である。
このフレームワークは,任意のCLIツールで動作するよう設計されており,同一ベンダーの複数のLCM審査員(Opus 4.5, Sonnet 4.5, Haiku 4.5)を用いてClaude Sonnet 4.5を用いて評価する。
その結果は再現可能なフレームワークであり、エージェントの複雑さと実際の結果の間のトレードオフを定量化し、アーキテクチャの複雑さが常に品質を改善するとは限らないことを示唆している。
関連論文リスト
- Cost-Aware Model Selection for Text Classification: Multi-Objective Trade-offs Between Fine-Tuned Encoders and LLM Prompting in Production [0.0]
大規模言語モデル(LLM)は、オープンエンド推論や生成言語タスクにおいて強力な機能を示している。
固定ラベル空間を用いた構造化テキスト分類問題に対して、モデル選択は予測性能のみによって駆動されることが多い。
BERTファミリーの細調整エンコーダを用いたモデルでは、競争力があり、しばしば優れた分類性能が得られることを示す。
論文 参考訳(メタデータ) (2026-02-06T03:54:28Z) - MARS: Modular Agent with Reflective Search for Automated AI Research [48.54202614558741]
我々は自律型AI研究に最適化されたフレームワークMARSを紹介する。
MARSは,(1)コストを意識したモンテカルロ木探索(MCTS)による予算計画(Budget-Aware Planning)による実行コストとパフォーマンスを明示的にバランスさせる),(2)複雑なリポジトリを管理するために"Design-Decompose-Implement"パイプラインを使用するモジュール構成,(3)ソリューションの違いを分析して高信号の洞察を抽出することで,与信の割り当てに対処する反射記憶(Reference Reflective Memory)という3つの柱に依存している。
論文 参考訳(メタデータ) (2026-02-02T19:00:03Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.403284945948272]
AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文 参考訳(メタデータ) (2025-05-27T16:17:15Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。