Fugu-MT 論文翻訳(概要): SmartOracle - An Agentic Approach to Mitigate Noise in Differential Oracles

論文の概要: SmartOracle - An Agentic Approach to Mitigate Noise in Differential Oracles

arxiv url: http://arxiv.org/abs/2601.15074v1
Date: Wed, 21 Jan 2026 15:20:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.414795
Title: SmartOracle - An Agentic Approach to Mitigate Noise in Differential Oracles
Title（参考訳）: SmartOracle - 微分オラクルのノイズ軽減のためのエージェント的アプローチ
Authors: Srinath Srinivasan, Tim Menzies, Marcelo D'Amorim,
Abstract要約: 差分ファジィは同一仕様の異なる実装間で同一の入力を実行することでバグを検出する。 SmartOracleは手動のトリアージワークフローを、専門のLarge Language Modelサブエージェントに分解する。活発なファジィキャンペーンにおいて、SmartOracleは以前未知の仕様レベルの問題を特定し、報告した。
参考スコア（独自算出の注目度）: 5.742682177744732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Differential fuzzers detect bugs by executing identical inputs across distinct implementations of the same specification, such as JavaScript interpreters. Validating the outputs requires an oracle and for differential testing of JavaScript, these are constructed manually, making them expensive, time-consuming, and prone to false positives. Worse, when the specification evolves, this manual effort must be repeated. Inspired by the success of agentic systems in other SE domains, this paper introduces SmartOracle. SmartOracle decomposes the manual triage workflow into specialized Large Language Model (LLM) sub-agents. These agents synthesize independently gathered evidence from terminal runs and targeted specification queries to reach a final verdict. For historical benchmarks, SmartOracle achieves 0.84 recall with an 18% false positive rate. Compared to a sequential Gemini 2.5 Pro baseline, it improves triage accuracy while reducing analysis time by 4$\times$ and API costs by 10$\times$. In active fuzzing campaigns, SmartOracle successfully identified and reported previously unknown specification-level issues across major engines, including bugs in V8, JavaScriptCore, and GraalJS. The success of SmartOracle's agentic architecture on Javascript suggests it might be useful other software systems- a research direction we will explore in future work.
Abstract（参考訳）: 差分ファジィは、JavaScriptインタプリタなど、同じ仕様の異なる実装間で同一のインプットを実行することでバグを検出する。アウトプットを検証するにはオラクルが必要で、JavaScriptの差分テストのためには、これらは手作業で構築される。さらに悪いことに、仕様が進化すると、この手作業は繰り返す必要があります。本稿では,他のSEドメインにおけるエージェントシステムの成功に触発されて,SmartOracleを紹介する。 SmartOracleは手動トリアージワークフローをLLM(Large Language Model)サブエージェントに分解する。これらのエージェントは、端末ランとターゲット仕様クエリから独立してエビデンスを収集し、最終的な判断に達した。過去のベンチマークでは、SmartOracleは18%の偽陽性率で0.84リコールを達成した。シーケンシャルなGemini 2.5 Proベースラインと比較して、分析時間を4$\times$、APIコストを10$\times$に削減し、トリアージ精度を向上させる。アクティブなファジィキャンペーンにおいて、SmartOracleは、V8、JavaScriptCore、GraalJSのバグを含む主要なエンジン全体で、これまで未知の仕様レベルの問題を特定し、報告した。 SmartOracleのJavascriptにおけるエージェントアーキテクチャの成功は、他のソフトウェアシステムに役立つかもしれないことを示唆している。

関連論文リスト

WebTestPilot: Agentic End-to-End Web Testing against Natural Language Specification by Inferring Oracles with Symbolized GUI Elements [19.881539879667873]
WebTestPilotは、これらの課題に対処するために設計されたビジュアル言語モデル(VLM)ベースのエージェントである。我々はNL-to-E2Eテストを評価するためのバグ注入Webアプリケーションのベンチマークを構築した。 WebTestPilotはタスク完了率99%、精度96%、バグ検出96%をリコールし、最高のベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-12T08:51:07Z)
AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation [9.472124187479915]
オンチェーントランザクションのシナリオでは、小さなエラーでさえ、ユーザにとって不可逆的な損失を引き起こす可能性がある。 EVM-QuestBenchは自然言語トランザクションスクリプト生成のための実行基盤ベンチマークである。単一動作精度と複数ステップのワークフロー完了の間に永続的な非対称性を示す分割スコアを用いて,20のモデルを評価し,大きな性能ギャップを求める。
論文参考訳（メタデータ） (2026-01-10T13:25:27Z)
Automated Discovery of Test Oracles for Database Management Systems Using LLMs [13.143749352093474]
本稿では,大規模な言語モデル(LLM)を用いて,テストオラクルの発見とインスタンス化を自動化する方法について検討する。 LLMは、多数の偽陽性バグレポートを生成する幻覚を起こす傾向がある。 ArgusはConstrained Abstract Queryの中核的な概念に基づいて構築された新しいフレームワークです。
論文参考訳（メタデータ） (2025-10-08T05:29:11Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。 Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。 AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文参考訳（メタデータ） (2025-09-03T13:42:14Z)
Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation [2.794277194464204]
ユニットテストは、ソフトウェアの正しさを保証する上で重要な役割を担います。従来の手法は、高いコードカバレッジを達成するために、検索ベースまたはランダム化アルゴリズムに依存していた。 CANDORはJavaにおける自動単体テスト生成のための新しいプロンプトエンジニアリングベースのLLMフレームワークである。
論文参考訳（メタデータ） (2025-06-03T14:43:05Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Go-Oracle: Automated Test Oracle for Go Concurrency Bugs [6.773048267569272]
Go言語では、バグが大きな問題となっている。我々の研究は、Goプログラムのテストオラクル問題に対処し、テスト実行をパスまたはフェールとして自動的に分類することを目指している。ネイティブなGo実行トレーサを使用して、包括的な実行イベントをキャプチャします。トランスフォーマーベースのニューラルネットワークをトレーニングする前に、これらのトレースを前処理してエンコードして、トレースをパスまたはフェールのいずれかとして効果的に分類します。
論文参考訳（メタデータ） (2024-12-11T03:07:56Z)
A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。 1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文参考訳（メタデータ） (2024-04-26T04:55:35Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。