論文の概要: CRAB-Bench: Evaluating LLM Agents under Complex Task Dependencies and Human-aligned User Simulation
- arxiv url: http://arxiv.org/abs/2606.01815v1
- Date: Mon, 01 Jun 2026 07:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.494726
- Title: CRAB-Bench: Evaluating LLM Agents under Complex Task Dependencies and Human-aligned User Simulation
- Title(参考訳): CRAB-Bench:複雑なタスク依存下でのLCMエージェントの評価とヒューマンアラインユーザシミュレーション
- Authors: Danqing Wang, Akshay Sivaraman, Lei Li,
- Abstract要約: CRAB-BenchとRUSEを導入し、サービスシナリオにおける現実的なエージェントを評価する。
RUSEは、協調的なテンプレートのようなシミュレータを、人間の行動研究に基づく現実的なユーザに置き換える。
実験によると、最高のモデルはCRAB-Benchで61%のpass@1しか達成せず、RUSEに切り替えると最大57%の低下が生じる。
- 参考スコア(独自算出の注目度): 11.773932102991425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating LLM agents in realistic service scenarios requires complex task dependencies, imperfect user behavior, and an evaluation that accommodates multiple valid solutions. We introduce CRAB-Bench (Constraint-based Realistic Agent Benchmark) and RUSE (Realistic User Simulation Engine) to address this gap. CRAB-Bench generates tasks via a constraint graph over multiple interdependent entities with structured distractors, requiring agents to reason carefully over thousands of misleading candidates where only a tiny fraction of solutions are valid. RUSE replaces cooperative, template-like simulators with realistic users grounded in human behavioral studies, instantiated across diverse personas and four behavioral dimensions. Experiments on four frontier LLM agents show that the best model achieves only 61% pass@1 on CRAB-Bench, and switching to RUSE causes further drops of up to 57%, concentrated in task-solving ability rather than conversational quality. Information Disclosure is the most damaging behavioral dimension, and agents interacting with RUSE are less likely to admit mistakes, instead masking errors through implicit corrections.
- Abstract(参考訳): 現実的なサービスシナリオにおけるLLMエージェントの評価には、複雑なタスク依存、不完全なユーザの振る舞い、複数の有効なソリューションに対応する評価が必要である。
本稿では,CRAB-Bench (Constraint-based Realistic Agent Benchmark) と RUSE (Realistic User Simulation Engine) を紹介する。
CRAB-Benchは、構造化されたインタプリタを持つ複数の相互依存エンティティ上の制約グラフを介してタスクを生成し、少数の解しか有効でない何千もの誤解を招く候補を慎重に推論する必要がある。
RUSEは、協調的なテンプレートのようなシミュレータを、人間の行動研究に根ざした現実的なユーザに置き換え、多様なペルソナと4つの行動次元でインスタンス化する。
4つのフロンティアLCMエージェントの実験では、最高のモデルはCRAB-Benchで61%のpass@1しか達成せず、RUSEに切り替えると、会話品質よりもタスク解決能力に集中する57%まで低下する。
情報開示は最も有害な行動次元であり、RUSEと相互作用するエージェントはミスを認めにくく、代わりに暗黙の修正によってエラーを隠蔽する。
関連論文リスト
- AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions [78.49000936275773]
我々は、一般的な汚職下でのコンピュータ利用エージェントの堅牢性を評価するために設計されたベンチマークであるAgentHijackを紹介する。
MLLMをベースとした各種デスクトップタスクを評価し, 汚職の小さな事例であっても, 大幅な性能劣化が生じることを確認した。
本稿では,動作の要約と環境チェックに責任を負う見物人として,アクションジェネレータと接地機能を統合したフレームワークであるAgent Hijack-Agentを提案する。
論文 参考訳(メタデータ) (2026-05-25T11:09:22Z) - FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - Efficient Agent Evaluation via Diversity-Guided User Simulation [7.723545220477047]
DIVERTは、エージェント-ユーザインタラクションを体系的に探索するための、スナップショットベースの、カバレッジガイド付きユーザーシミュレーションフレームワークである。
重要な決定ポイントでエージェント環境の全状態をキャプチャし、これらのスナップショットから実行を再開する。
DIVERTは、意味的に多様性があり、探索されていない軌道に焦点を合わせることにより、効率とカバレッジの両方を改善している。
論文 参考訳(メタデータ) (2026-04-23T09:41:21Z) - CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale [5.641245411366927]
タスク指向型マルチターン対話を大規模に自動生成するフレームワークを開発した。
我々の生成パイプラインは、任意の状態から生成を開始することができる汎用的なプラグイン・アンド・プレイモジュールとして動作します。
実世界の人間とエージェントの相互作用の多面的要求を反映した高密度データセットを提供する。
論文 参考訳(メタデータ) (2026-01-13T05:14:09Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。