論文の概要: Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2605.18332v1
- Date: Mon, 18 May 2026 12:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.406324
- Title: Same Signal, Different Semantics: A Cross-Framework Behavioral Analysis of Software Engineering Agents
- Title(参考訳): 異なるセマンティックス - ソフトウェアエンジニアリングエージェントのクロスフレームな振る舞い分析
- Authors: Wei Ma, Zhi Chen, Jingxu Gu, Tianling Li, Shangqing Liu, Lingxiao Jiang,
- Abstract要約: ソフトウェア工学エージェントの行動研究は、どの軌道形状がより高い分解率と相関するかという操作規則を抽出する。
それぞれのルールは典型的には単一のフレームワークから派生しており、それが構造的に異なるエージェント設計への署名と大きさの移行が直接テストされていない。
我々は、各層を順番に固定することでLCM効果からフレームワーク効果を分離し、構成毎に1つの振る舞い・アウトカム効果を測定する。
- 参考スコア(独自算出の注目度): 28.650582699234402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral studies of LLM-based software engineering agents extract operational rules about which trajectory shapes correlate with higher resolution rates: that a test step follows a code modification, that error cascades are short, or that trajectories are compact. Each rule is typically derived from a single framework, and whether it transfers, in sign as well as magnitude, to structurally different agent designs has not been directly tested. We address this at ecosystem scale: 64,380 SWE-bench runs from 126 agent configurations spanning 43 frameworks, where each configuration pairs an LLM with a framework (e.g., SWE-Agent, OpenHands) that supplies its tools and workflow. We separate framework effects from LLM effects by holding each layer fixed in turn, then measure one behavior-outcome effect per configuration and examine how those effects agree or disagree. Swapping the framework while the LLM is held fixed produces large behavioral differences in every action feature. On most signals, configurations disagree not merely in magnitude but in direction. Error rate is the cleanest case: 47 configurations resolve more issues when their error rate is lower, while 48 resolve more when it is higher. Five other continuous features and three of seven binary patterns from prior SE literature show similar directional disagreement. Framework identity accounts for more of this variation than LLM family: for mean turns, framework explains 64% of the between-configuration variance against the LLM's 10%. The implication is that the same observable behavioral signal can carry opposite meaning for different agent configurations. Behavioral findings from any single framework therefore warrant cross-configuration validation before being claimed as general.
- Abstract(参考訳): LLMベースのソフトウェアエンジニアリングエージェントの行動研究は、軌道形状がより高い解像度率と相関する操作ルールを抽出する: テストステップがコード修正に従うこと、エラーカスケードが短いこと、あるいは軌道がコンパクトであること。
それぞれのルールは典型的には単一のフレームワークから派生しており、それが構造的に異なるエージェント設計に署名と大きさを移すかどうかは直接テストされていない。
64,380 SWE-benchは、43のフレームワークにまたがる126のエージェント構成から実行されます。
それぞれの層を順番に固定することでLCM効果からフレームワーク効果を分離し、構成毎に1つの振る舞い・アウトカム効果を測定し、それらの効果がどのように一致しているか、不一致かを検証する。
LLMが固定されている間にフレームワークをスワップすると、すべてのアクション機能に大きな振る舞いの違いが生じる。
ほとんどの信号では、構成は大きさだけでなく方向も一致しない。
エラー率が最もクリーンなケースは、47のコンフィギュレーションがエラー率を下げる時に、48のコンフィギュレーションがより高い時に、さらに多くの問題を解決します。
その他の5つの連続的な特徴と、以前のSE文献からの7つのバイナリパターンのうち3つは、同様の方向性の相違を示している。
平均すると、フレームワークはLLMの10%に対して構成間のばらつきの64%を説明しています。
意味するところは、同じ観測可能な行動信号は異なるエージェント構成に対して反対の意味を持ち得るということである。
したがって、単一のフレームワークからの振る舞いの発見は、一般的に主張される前に、クロスコンフィグレーションの検証を保証します。
関連論文リスト
- Instruction Adherence in Coding Agent Configuration Files: A Factorial Study of Four File-Structure Variables [0.0]
コーディングエージェントはセッション開始時に設定ファイルを読み、内部の規約に従うことが期待されている。
4つの操作変数を用いたこれらの選択の系統的要因分析を報告する。
4つの構造変数または3つの双方向相互作用は、多重検定補正後に検出可能なコントラストを生成しない。
論文 参考訳(メタデータ) (2026-05-11T06:09:47Z) - Beyond Resolution Rates: Behavioral Drivers of Coding Agent Success and Failure [0.0]
コーディングエージェントは、大規模言語モデルの推論能力とツール強化された対話ループを組み合わせた、自動化されたソフトウェアエンジニアリングにおける新しいパラダイムを表している。
トップランクのLLMベースのコーディングエージェントは、ベンチマークされた問題の20%以上で依然として失敗している。
本研究は,500件のタスクにおいて,19件のエージェントから9,374件のトラジェクトリを分析した大規模な実証研究である。
論文 参考訳(メタデータ) (2026-04-02T21:56:23Z) - SemLoc: Structured Grounding of Free-Form LLM Reasoning for Fault Localization [6.086377855676357]
本稿では,構造化セマンティックランタイムに基づくフォールトローカライゼーションフレームワークSemLocを紹介する。
SemLoc on SemFault-250, acorpus of 250 Python program with single semantic faults。
論文 参考訳(メタデータ) (2026-03-31T00:56:43Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement [61.35824395228412]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。
エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
論文 参考訳(メタデータ) (2025-11-08T08:49:38Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - StaAgent: An Agentic Framework for Testing Static Analyzers [7.951459111292028]
StaAgentは、静的アナライザルールを体系的に評価するために、LLM(Large Language Models)の生成能力を利用するエージェントフレームワークである。
StaAgentは一貫性のない振る舞いを明らかにすることによって、ルール実装の欠陥を明らかにするのに役立ちます。
そこで我々は,StaAgentを5つの広く使用されている静的アナライザにまたがって5つの最先端LCMを用いて評価した。
論文 参考訳(メタデータ) (2025-07-20T13:41:02Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。