論文の概要: AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI
- arxiv url: http://arxiv.org/abs/2510.18170v1
- Date: Mon, 20 Oct 2025 23:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.730976
- Title: AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI
- Title(参考訳): AgentChangeBench:会話型AIにおけるゴールシフトロバストネスのための多次元評価フレームワーク
- Authors: Manik Rana, Calissa Man, Anotida Expected Msiiwa, Jeffrey Paine, Kevin Zhu, Sunishchal Dev, Vasu Sharma, Ahan M R,
- Abstract要約: AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
- 参考スコア(独自算出の注目度): 5.165179548592513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal changes are a defining feature of real world multi-turn interactions, yet current agent benchmarks primarily evaluate static objectives or one-shot tool use. We introduce AgentChangeBench, a benchmark explicitly designed to measure how tool augmented language model agents adapt to mid dialogue goal shifts across three enterprise domains. Our framework formalizes evaluation through four complementary metrics: Task Success Rate (TSR) for effectiveness, Tool Use Efficiency (TUE) for reliability, Tool Call Redundancy Rate (TCRR) for wasted effort, and Goal-Shift Recovery Time (GSRT) for adaptation latency. AgentChangeBench comprises 2,835 task sequences and five user personas, each designed to trigger realistic shift points in ongoing workflows. Using this setup, we evaluate several frontier models and uncover sharp contrasts obscured by traditional $\text{pass}@k$ scores: for example, GPT-4o reaches $92.2\%$ recovery on airline booking shifts while Gemini collapses to $48.6\%$, and retail tasks show near perfect parameter validity yet redundancy rates above $80\%$, revealing major inefficiencies. These findings demonstrate that high raw accuracy does not imply robustness under dynamic goals, and that explicit measurement of recovery time and redundancy is essential. AgentChangeBench establishes a reproducible testbed for diagnosing and improving agent resilience in realistic enterprise settings.
- Abstract(参考訳): 目標変更は、実世界のマルチターンインタラクションの定義的な機能だが、現在のエージェントベンチマークでは、主に静的な目的やワンショットツールの使用を評価している。
AgentChangeBenchは、ツール拡張言語モデルエージェントが3つのエンタープライズドメインにまたがるミッドダイアログのゴールシフトにどのように適応するかを明示的に測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応遅延のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
AgentChangeBenchは2,835のタスクシーケンスと5人のユーザペルソナで構成される。
この設定を用いて、いくつかのフロンティアモデルを評価し、従来の$\text{pass}@k$スコアで曖昧なシャープコントラストを明らかにする。例えば、GPT-4oは航空会社の予約シフトで92.2\%、ジェミニは48.6\%、小売タスクは80\%以上のパラメータ妥当性を示すが、大きな非効率性を示す。
これらの結果から, 動的目標の下では高い原精度が頑健さを示唆せず, 回収時間と冗長性の明示的な測定が不可欠であることが示唆された。
AgentChangeBenchは、現実的なエンタープライズ環境でエージェントのレジリエンスを診断し改善するための再現可能なテストベッドを確立する。
関連論文リスト
- ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models [62.82372407840088]
大規模言語モデル(LLM)は受動的生成を超越し、外部ツールを呼び出すことで目標指向エージェントとして機能する。
textbfReshaped textbfToken-level policy gradients (textbfResT) for tool-use task。
textbfResTは最先端の結果を達成し、以前のメソッドを最大8.76%$で上回っている。
論文 参考訳(メタデータ) (2025-09-26T03:38:27Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning [5.825410941577592]
強化学習(Reinforcement Learning, RL)エージェントは、環境の変化を訓練し、脆弱にするために費用がかかる。
変更自体からエージェントのパフォーマンスへの影響を予測できるかどうか、これまでの作業では定まっていない。
エージェントのパフォーマンス低下に変化を関連付けるために,CHRP(Change-induced Regret Proxy)メトリクスを提案する。
論文 参考訳(メタデータ) (2024-09-05T14:31:05Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [20.307151769610087]
連続的テスト時間適応(CTTA)は、目標ドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望な手法として登場した。
我々は3つのコアコンポーネントを特徴とするAMRODについて,CTTAシナリオにおける検出モデルに対するこれらの課題に対処する。
我々は,AMRODが既存の方法よりも優れている4つのCTTAオブジェクト検出タスクにおいて,AMRODの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。