論文の概要: ORACLE-SWE: Quantifying the Contribution of Oracle Information Signals on SWE Agents
- arxiv url: http://arxiv.org/abs/2604.07789v1
- Date: Thu, 09 Apr 2026 04:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.69475
- Title: ORACLE-SWE: Quantifying the Contribution of Oracle Information Signals on SWE Agents
- Title(参考訳): ORACLE-SWE:SWEエージェント上のOracle情報信号の寄与の定量化
- Authors: Kenan Li, Qirui Jin, Liao Zhu, Xiaosong Huang, Yijia Wu, Yikai Zhang, Xin Zhang, Zijian Jin, Yufan Huang, Elsie Nallipogu, Chaoyun Zhang, Yu Kang, Saravan Rajmohan, Qingwei Lin, Wenke Lee, Dongmei Zhang,
- Abstract要約: Oracle-SWEは、SWEベンチマークから情報信号を分離して抽出し、各信号がエージェントのパフォーマンスに与える影響を定量化する手法である。
これらの評価は、自律型符号化システムの研究を導くことを目的としている。
- 参考スコア(独自算出の注目度): 48.402971691097754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in language model (LM) agents have significantly improved automated software engineering (SWE). Prior work has proposed various agentic workflows and training strategies as well as analyzed failure modes of agentic systems on SWE tasks, focusing on several contextual information signals: Reproduction Test, Regression Test, Edit Location, Execution Context, and API Usage. However, the individual contribution of each signal to overall success remains underexplored, particularly their ideal contribution when intermediate information is perfectly obtained. To address this gap, we introduce Oracle-SWE, a unified method to isolate and extract oracle information signals from SWE benchmarks and quantify the impact of each signal on agent performance. To further validate the pattern, we evaluate the performance gain of signals extracted by strong LMs when provided to a base agent, approximating real-world task-resolution settings. These evaluations aim to guide research prioritization for autonomous coding systems.
- Abstract(参考訳): 言語モデル(LM)エージェントの最近の進歩は、自動化ソフトウェア工学(SWE)を大幅に改善した。
以前の作業では、さまざまなエージェントワークフローとトレーニング戦略を提案し、SWEタスク上のエージェントシステムの障害モードを分析し、いくつかのコンテキスト情報信号(Reproduction Test、Reression Test、Edit Location、Execution Context、API Usage)に焦点を当てた。
しかし、全体としての成功に対する各信号の個々の寄与は未定であり、特に中間情報が完全に得られたときの理想的な寄与は未定である。
このギャップに対処するため、SWEベンチマークからオラクル情報信号を分離・抽出し、各信号がエージェント性能に与える影響を定量化する統合手法であるOracle-SWEを導入する。
このパターンをさらに検証するため、実世界のタスク解決設定を近似して、ベースエージェントに提供される強いLMによって抽出された信号の性能向上を評価する。
これらの評価は、自律型符号化システムの研究優先順位付けを導くことを目的としている。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Towards Agentic Self-Learning LLMs in Search Environment [36.158823302039195]
自己学習が人間の計算したデータセットや事前定義されたルールベースの報酬に頼ることなく、LSMベースのエージェントをスケールできるかどうかを検討する。
生成的リワードモデル(GRM)の報酬は、オープンドメイン学習のための厳密なルールベースの信号より優れている。
完全閉ループ・マルチロール強化学習フレームワークである textbfAgentic Self-Learning (ASL) を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:11:56Z) - SignalLLM: A General-Purpose LLM Agent Framework for Automated Signal Processing [36.22027224597969]
大規模言語モデル(LLM)は、強力な推論能力、幅広い汎用知識、文脈内学習、モーダル間伝達能力を提供する。
本稿では,SPタスクのための汎用LLMベースのエージェントフレームワークであるSignalLLMを紹介する。
コミュニケーションとセンシングにおける5つの代表的なタスクを通して,SignalLLMの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2025-09-21T18:54:54Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation [11.470318058523466]
大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。