論文の概要: CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
- arxiv url: http://arxiv.org/abs/2601.22027v1
- Date: Thu, 29 Jan 2026 17:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.045524
- Title: CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
- Title(参考訳): CARベンチ:実世界不確実性下におけるLCM剤の一貫性と限界認識の評価
- Authors: Johannes Kirmayr, Lukas Stappen, Elisabeth André,
- Abstract要約: LLM(Large Language Model)エージェントの既存のベンチマークは、理想主義的な設定下でのタスク補完に焦点を当てている。
CAR-benchは、車内アシスタントドメインにおいて、多ターンツールを用いたLLMエージェントにおいて、一貫性、不確実性ハンドリング、能力意識を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 8.976559755301658
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing benchmarks for Large Language Model (LLM) agents focus on task completion under idealistic settings but overlook reliability in real-world, user-facing applications. In domains, such as in-car voice assistants, users often issue incomplete or ambiguous requests, creating intrinsic uncertainty that agents must manage through dialogue, tool use, and policy adherence. We introduce CAR-bench, a benchmark for evaluating consistency, uncertainty handling, and capability awareness in multi-turn, tool-using LLM agents in an in-car assistant domain. The environment features an LLM-simulated user, domain policies, and 58 interconnected tools spanning navigation, productivity, charging, and vehicle control. Beyond standard task completion, CAR-bench introduces Hallucination tasks that test agents' limit-awareness under missing tools or information, and Disambiguation tasks that require resolving uncertainty through clarification or internal information gathering. Baseline results reveal large gaps between occasional and consistent success on all task types. Even frontier reasoning LLMs achieve less than 50% consistent pass rate on Disambiguation tasks due to premature actions, and frequently violate policies or fabricate information to satisfy user requests in Hallucination tasks, underscoring the need for more reliable and self-aware LLM agents in real-world settings.
- Abstract(参考訳): 既存のLLM(Large Language Model)エージェントのベンチマークでは、理想主義的な設定下でのタスク補完に重点を置いている。
車内音声アシスタントのようなドメインでは、ユーザーはしばしば不完全または曖昧な要求を発行し、エージェントが対話、ツールの使用、ポリシーの遵守を通じて管理しなければならない本質的な不確実性を生み出す。
CAR-benchは、車内アシスタントドメインにおいて、多ターンツールを用いたLLMエージェントにおいて、一貫性、不確実性ハンドリング、能力意識を評価するためのベンチマークである。
環境はLLMシミュレーションされたユーザ、ドメインポリシー、およびナビゲーション、生産性、充電、車両制御にまたがる58の相互接続ツールを備えている。
標準的なタスク完了以外にも、CAR-benchでは、不足するツールや情報の下でエージェントの限界認識をテストするための幻覚タスクや、明確化や内部情報収集による不確実性の解消を必要とする曖昧さタスクが導入されている。
ベースラインの結果は、すべてのタスクタイプで時折成功と一貫した成功の間に大きなギャップを示す。
LLMのフロンティア推論でさえ、初期動作による曖昧なタスクに対して50%未満の一貫したパスレートを達成し、しばしば幻覚タスクにおけるユーザ要求を満たすためのポリシーや情報に違反し、現実の環境でより信頼性が高く自己認識のLLMエージェントの必要性を強調する。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Learning-To-Measure: In-context Active Feature Acquisition [10.604433053831405]
我々はメタAFA問題を定式化し、そこでは様々なタスクで獲得ポリシーを学習することを目的としている。
本稿では,未確認タスクに対する信頼性の高い不確実性定量化と,不確実性誘導機能獲得エージェントであるL2Mを紹介する。
L2Mは、振り返り不足のあるデータセットを直接操作し、メタAFAタスクをコンテキスト内で実行する。
論文 参考訳(メタデータ) (2025-10-14T15:23:32Z) - InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents [60.89180545430896]
InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。
汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。
この設計は信頼性と非自明性の両方を保証する。
論文 参考訳(メタデータ) (2025-10-02T17:48:03Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。
不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-09-09T21:12:03Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。