論文の概要: AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition
- arxiv url: http://arxiv.org/abs/2602.11348v2
- Date: Wed, 18 Feb 2026 01:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.944224
- Title: AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition
- Title(参考訳): AgentNoiseBench: ノイズ条件下でのツール使用 LLM エージェントのロバスト性ベンチマーク
- Authors: Ruipeng Wang, Yuxin Chen, Yukai Wang, Chang Wu, Junfeng Fang, Xiaodong Cai, Qi Gu, Hui Su, An Zhang, Xiang Wang, Xunliang Cai, Tat-Seng Chua,
- Abstract要約: 本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
- 参考スコア(独自算出の注目度): 72.24180896265192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models have enabled LLM-based agents to achieve strong performance on a variety of benchmarks. However, their performance in real-world deployments often that observed on benchmark settings, especially in complex and imperfect environments. This discrepancy largely arises because prevailing training and evaluation paradigms are typically built on idealized assumptions, overlooking the inherent stochasticity and noise present in real-world interactions. To bridge this gap, we introduce AgentNoiseBench, a framework for systematically evaluating the robustness of agentic models under noisy environments. We first conduct an in-depth analysis of biases and uncertainties in real-world scenarios and categorize environmental noise into two primary types: user-noise and tool-noise. Building on this analysis, we develop an automated pipeline that injects controllable noise into existing agent-centric benchmarks while preserving task solvability. Leveraging this pipeline, we perform extensive evaluations across a wide range of models with diverse architectures and parameter scales. Our results reveal consistent performance variations under different noise conditions, highlighting the sensitivity of current agentic models to realistic environmental perturbations.
- Abstract(参考訳): 大規模言語モデルの最近の進歩により、LLMベースのエージェントは様々なベンチマークで高い性能を達成することができた。
しかしながら、実際のデプロイメントにおけるパフォーマンスは、ベンチマーク設定、特に複雑で不完全な環境でよく観察される。
この相違は主に、一般的な訓練と評価のパラダイムが理想化された仮定に基づいて構築され、現実の相互作用に存在する固有の確率性とノイズを見渡すためである。
このギャップを埋めるため,騒音環境下でのエージェントモデルの堅牢性を体系的に評価するフレームワークであるAgentNoiseBenchを紹介した。
まず,現実のシナリオにおけるバイアスや不確実性の詳細な分析を行い,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心のベンチマークに制御可能なノイズを注入し,タスクの可解性を保ちながら自動パイプラインを構築する。
このパイプラインを活用することで、さまざまなアーキテクチャとパラメータスケールを備えた、幅広いモデルの広範な評価を行います。
その結果, 騒音条件の違いによる一貫した性能変化が明らかとなり, 現実的な環境摂動に対する現行のエージェントモデルの感度が明らかにされた。
関連論文リスト
- Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。
Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。
この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-22T13:43:58Z) - From Perfect to Noisy World Simulation: Customizable Embodied Multi-modal Perturbations for SLAM Robustness Benchmarking [32.52171076424419]
エンボディードエージェントは、非構造環境で運用するために堅牢なナビゲーションシステムを必要とする。
ノイズの多いデータ合成のための,新しい,カスタマイズ可能なパイプラインを提案する。
我々はニューラル(NeRF)モデルと非ニューラルSLAMモデルの両方の障害に対する感受性を明らかにする。
論文 参考訳(メタデータ) (2024-06-24T17:57:05Z) - $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations [36.74309198908876]
摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
論文 参考訳(メタデータ) (2024-03-07T22:18:12Z) - Customizable Perturbation Synthesis for Robust SLAM Benchmarking [33.74471840597803]
ノイズの多いデータ合成のための,新しい,カスタマイズ可能なパイプラインを提案する。
このパイプラインには、カスタマイズ可能なハードウェアセットアップ、ソフトウェアコンポーネント、摂動環境が含まれている。
多様な摂動型を含むRobust-SLAMベンチマークをインスタンス化し、既存の高度SLAMモデルのリスク許容性を評価する。
論文 参考訳(メタデータ) (2024-02-12T23:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。