論文の概要: ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment
- arxiv url: http://arxiv.org/abs/2512.24040v1
- Date: Tue, 30 Dec 2025 07:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.310359
- Title: ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment
- Title(参考訳): ROAD: ゼロショットエージェントアライメントのための自動デバッグによる反射的最適化
- Authors: Natchaya Temyingyong, Daman Jain, Neeraj Kumarsahu, Prabhat Kumar, Rachata Phondi, Wachiravit Modecrua, Krittanon Kaewtawee, Krittin Pachtrachai, Touchapon Kraisingkorn,
- Abstract要約: ROADは、最適化を検索ではなく動的デバッグ調査として扱う新しいフレームワークである。
道路はサンプリング効率が高く、成功率は5.6%、検索精度は3.8%向上している。
これらの結果は、ヒューマンエンジニアリングの失敗分析とパッチングのループを模倣することで、リソース集約的なトレーニングに代わる、実行可能なデータ効率の代替が可能になることを示唆している。
- 参考スコア(独自算出の注目度): 1.6968020497268546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Prompt Optimization (APO) has emerged as a critical technique for enhancing Large Language Model (LLM) performance, yet current state-of-the-art methods typically rely on large, labeled gold-standard development sets to compute fitness scores for evolutionary or Reinforcement Learning (RL) approaches. In real-world software engineering, however, such curated datasets are rarely available during the initial cold start of agent development, where engineers instead face messy production logs and evolving failure modes. We present ROAD (Reflective Optimization via Automated Debugging), a novel framework that bypasses the need for refined datasets by treating optimization as a dynamic debugging investigation rather than a stochastic search. Unlike traditional mutation strategies, ROAD utilizes a specialized multi-agent architecture, comprising an Analyzer for root-cause analysis, an Optimizer for pattern aggregation, and a Coach for strategy integration, to convert unstructured failure logs into robust, structured Decision Tree Protocols. We evaluated ROAD across both a standardized academic benchmark and a live production Knowledge Management engine. Experimental results demonstrate that ROAD is highly sample-efficient, achieving a 5.6 percent increase in success rate (73.6 percent to 79.2 percent) and a 3.8 percent increase in search accuracy within just three automated iterations. Furthermore, on complex reasoning tasks in the retail domain, ROAD improved agent performance by approximately 19 percent relative to the baseline. These findings suggest that mimicking the human engineering loop of failure analysis and patching offers a viable, data-efficient alternative to resource-intensive RL training for deploying reliable LLM agents.
- Abstract(参考訳): オートマチック・プロンプト・最適化(APO)は大規模言語モデル(LLM)の性能を向上させる重要な手法として登場したが、現在の最先端の手法は一般に、進化的・強化学習(RL)アプローチの適合度スコアを計算するために、大きくラベル付けされた金標準開発セットに依存している。
しかし、現実世界のソフトウェアエンジニアリングでは、このようなキュレートされたデータセットはエージェント開発の開始時にほとんど利用できない。
ROAD(Reflective Optimization via Automated Debugging)は,確率探索ではなく動的デバッグ調査として最適化を扱うことにより,洗練されたデータセットの必要性を回避する新しいフレームワークである。
従来の突然変異戦略とは異なり、ROADは、ルート原因分析のためのアナライザ、パターン集約のためのオプティマイザ、戦略統合のためのCoachを含む、特殊なマルチエージェントアーキテクチャを使用して、構造化されていない障害ログを堅牢で構造化された決定木プロトコルに変換する。
ROADを標準化された学術ベンチマークと実運用の知識管理エンジンの両方で評価した。
実験の結果、ROADはサンプル効率が高く、成功率(73.6%から79.2%)が5.6%上昇し、3回の自動イテレーションで検索精度が3.8%上昇した。
さらに,小売ドメインの複雑な推論タスクにおいて,ROADはエージェント性能をベースラインに対して約19%向上した。
これらの結果から,人間工学の失敗解析とパッチングのループを模倣することで,信頼性の高いLDMエージェントをデプロイするリソース集約型RLトレーニングに代えて,データ効率が向上することが示唆された。
関連論文リスト
- HeaRT: A Hierarchical Circuit Reasoning Tree-Based Agentic Framework for AMS Design Optimization [13.18012004667103]
HeaRTは自動化ループの基本的な推論エンジンであり、インテリジェントで適応的でヒューマンスタイルの設計最適化に向けた第一歩である。
HeaRTは、40サイクルのベンチマークリポジトリで、推論精度97%、Pass@1のパフォーマンス98%を一貫して示しています。
実験の結果,HeaRTはサイズおよびトポロジー設計適応タスクにおいて3倍の収束性が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-24T20:11:06Z) - GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents [0.32839375042867835]
textitGrowthHackerは、大規模な実世界のデータセットのエージェントおよびベースラインメソッドによるベンチマークである。
textittwo_agentフレームワークを開発し、最適化効率を保ちながらシステムの複雑さを低減する。
その結果、2_agentフレームワークは100%の信頼性と106.7%の平均的な改善を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-02T04:47:17Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - eARCO: Efficient Automated Root Cause Analysis with Prompt Optimization [15.299667843493491]
大規模クラウドシステムにおけるインシデントに対するルート原因分析(RCA)は、複雑で知識集約的なタスクである。
近年のLLM(Large-Language Models)の進歩は,インシデント管理ライフサイクルの異なる段階の解決に有効であることが証明されている。
我々は、最先端のプロンプト最適化技術であるPromptWizardを利用して、最適化されたプロンプト命令を自動的に識別する。
論文 参考訳(メタデータ) (2025-04-15T08:10:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。