論文の概要: Tool-Aware Planning in Contact Center AI: Evaluating LLMs through Lineage-Guided Query Decomposition
- arxiv url: http://arxiv.org/abs/2602.14955v1
- Date: Mon, 16 Feb 2026 17:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.565217
- Title: Tool-Aware Planning in Contact Center AI: Evaluating LLMs through Lineage-Guided Query Decomposition
- Title(参考訳): コンタクトセンターAIにおけるツール・アウェア・プランニング:線形誘導クエリ分解によるLCMの評価
- Authors: Varun Nathan, Shreyas Guha, Ayush Kumar,
- Abstract要約: コンタクトセンターにおけるツール・アウェア・プラン生成のためのドメイン・グラウンド・フレームワークとベンチマークを提案する。
i) 基準ベースの計画評価フレームワークを2つのモードで動作させる: (i) 計量的評価器とワンショット評価器、および (ii) 評価器>最適化器ループを介して計画を反復的に洗練するデータ方法論である。
- 参考スコア(独自算出の注目度): 2.8180871881371456
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a domain-grounded framework and benchmark for tool-aware plan generation in contact centers, where answering a query for business insights, our target use case, requires decomposing it into executable steps over structured tools (Text2SQL (T2S)/Snowflake) and unstructured tools (RAG/transcripts) with explicit depends_on for parallelism. Our contributions are threefold: (i) a reference-based plan evaluation framework operating in two modes - a metric-wise evaluator spanning seven dimensions (e.g., tool-prompt alignment, query adherence) and a one-shot evaluator; (ii) a data curation methodology that iteratively refines plans via an evaluator->optimizer loop to produce high-quality plan lineages (ordered plan revisions) while reducing manual effort; and (iii) a large-scale study of 14 LLMs across sizes and families for their ability to decompose queries into step-by-step, executable, and tool-assigned plans, evaluated under prompts with and without lineage. Empirically, LLMs struggle on compound queries and on plans exceeding 4 steps (typically 5-15); the best total metric score reaches 84.8% (Claude-3-7-Sonnet), while the strongest one-shot match rate at the "A+" tier (Extremely Good, Very Good) is only 49.75% (o3-mini). Plan lineage yields mixed gains overall but benefits several top models and improves step executability for many. Our results highlight persistent gaps in tool-understanding, especially in tool-prompt alignment and tool-usage completeness, and show that shorter, simpler plans are markedly easier. The framework and findings provide a reproducible path for assessing and improving agentic planning with tools for answering data-analysis queries in contact-center settings.
- Abstract(参考訳): 我々は、コンタクトセンターにおけるツール対応プラン生成のためのドメインベースフレームワークとベンチマークを提案し、ビジネスインサイトに対する問い合わせに答えるためには、構造化ツール(Text2SQL (T2S)/Snowflake)と非構造化ツール(RAG/transcripts)を並列処理のために明示的なDepend_onで実行可能なステップに分解する必要がある。
私たちの貢献は3倍です。
(i)基準ベースの計画評価フレームワークで、7次元(例えば、ツール・プロンプトのアライメント、クエリのアライメント)にまたがる計量的評価器と1ショット評価器の2つのモードで動作する。
(二)手作業の削減を図りつつ、質の高い計画系統(発注計画改正)を作成するため、評価者>最適化者ループを介して計画を反復的に洗練するデータキュレーション手法
(3) 大規模調査では, クエリをステップ・バイ・ステップ, 実行可能, ツール・アサインプランに分解し, 系統・無系統のプロンプトで評価した。
LLMは複雑なクエリと4段階を超える計画(典型的には5-15)に苦しむが、最高スコアは84.8%(Claude-3-7-Sonnet)であり、「A+」層で最強のワンショットマッチレート(Extremely Good, Very Good)は49.75%(o3-mini)である。
計画系統は全体として混合利得をもたらすが、いくつかのトップモデルに恩恵を与え、多くの人にとってステップ実行可能性を改善する。
この結果から,ツールのアライメントやツール使用の完全性において,ツール理解の持続的なギャップが浮き彫りになり,より簡潔な計画が極めて容易であることが示唆された。
このフレームワークと発見は、エージェントプランニングの評価と改善のための再現可能なパスを提供し、コンタクトセンタ設定でデータ分析クエリに応答するツールを提供する。
関連論文リスト
- TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks [23.96822236741708]
大規模言語モデル(LLM)エージェントは、研究やコーディングといった分野にまたがる強力な問題解決能力を示している。
本稿では, TPS-Bench を用いて, ツールプランニングとスケジューリングを要求される問題に対する LLM エージェントの能力のベンチマークを行う。
論文 参考訳(メタデータ) (2025-11-03T12:45:39Z) - Planning Agents on an Ego-Trip: Leveraging Hybrid Ego-Graph Ensembles for Improved Tool Retrieval in Enterprise Task Planning [0.0]
本稿では,ツール間のセマンティックな関係と機能的依存関係をキャプチャする,知識グラフに基づくツール検索フレームワークを提案する。
検索アルゴリズムは1-hop egoツールグラフのアンサンブルを利用して,ツール間の直接的および間接的な接続をモデル化する。
その結果,ツールグラフに基づく手法は,マイクロアベレージ・コンプリート・リコール・メトリックにおいて91.85%のツールカバレッジを実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-07T22:41:12Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。