Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments
Abstractの概要
本論文は、理想化されたエージェントの訓練と実環境での展開との間のミスマッチを研究し、現在のLLMエージェントが過度にクリーンな環境で訓練されているため、確率的で不完全な相互作用の下では性能が低下すると主張している。著者らは、エージェント学習において明示的に2種類の環境ノイズを注入する訓練フレームワーク「NoisyAgent」を提案している。これには、指示に曖昧さ、矛盾、冗長性をもたらすユーザー側のノイズと、ツールの障害、不完全な出力、誤解を招く応答、冗長なフィードバックをシミュレートするツール側のノイズが含まれる。訓練を安定させるため、この手法ではクリーンなロールアウトとノイズのあるロールアウトを混在させ、各グループごとに個別にアドバンテージを計算するとともに、両者のロバストネスのギャップ測定に基づきノイズの量と難易度を段階的に増加させる。ノイズを意識した訓練がロバストネスと一般的な能力の両方を向上させるかを検証するため、ノイズのロバストネスベンチマークと標準的なエージェントベンチマークで実験が行われている。
新規性
本論文の主な新規性は、現実的な相互作用ノイズを単なる評価条件としてではなく、エージェント訓練の第一級コンポーネントとして扱う点にある。自動的なユーザーおよびツールのノイズ注入と、クリーンとノイズのハイブリッドロールアウト、さらにモデルが十分に順応した際にノイズを段階的に増加させる適応型カリキュラムを組み合わせている。
成果
Qwen3-8BおよびQwen3-32Bの両バックボーンにおいて、NoisyAgentはリストされたすべてのドメインと指標でAgentNoiseBenchにおける最高の結果を達成し、GRPO、DAPO、GSPOを上回っている。この性能向上は理想化されたベンチマークにも波及しており、例えば、τ2-Bench Retail上のQwen3-32Bでは、Avg@4がGSPOの58.55に対して60.31に向上し、AgentNoiseBench-τ2 RetailではGSPOの37.72に対して43.20に達している。アブレーション実験の結果はさらに、制御された注入、スケジューリング、またはノイズ曝露を削除するとパフォーマンスが低下することを示しており、各手法の要素がロバストネスの向上に寄与していることを示している。
論文の注目点
- NoisyAgentは、訓練中にノイズの多いユーザーインタラクションとノイズの多いツール出力という2つの実践的なノイズ源をモデル化している。
- 訓練戦略は、クリーンなロールアウトと摂動を与えたロールアウトを組み合わせ、グループごとに個別の正規化を行い、段階的なノイズスケジュールを採用することで学習を安定させている。
- この手法は、ノイズの多いベンチマークにおけるロバストネスを向上させるだけでなく、標準的なクリーンベンチマークでも一貫した向上をもたらし、トレードオフではなく全体的な汎化性能の向上を示唆している。
参考リンク
- arXiv: https://arxiv.org/abs/2605.27209v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.27209v1
- Hugging Face Papers: https://huggingface.co/papers/2605.27209