論文の概要: $τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge
- arxiv url: http://arxiv.org/abs/2603.04370v1
- Date: Wed, 04 Mar 2026 18:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.454696
- Title: $τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge
- Title(参考訳): $τ$-Knowledge:非構造化知識による会話エージェントの評価
- Authors: Quan Shi, Alexandra Zytek, Pedram Razavi, Karthik Narasimhan, Victor Barres,
- Abstract要約: $-Knowledgeは、外部の自然言語知識とツール出力の協調に依存する環境でエージェントを評価するための$-Benchの拡張である。
我々は、$$-Knowledgeが、非構造的知識を人間対応デプロイメントに組み込むエージェントを開発するための、現実的なテストベッドを提供することを示した。
- 参考スコア(独自算出の注目度): 58.03692489021332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce $τ$-Knowledge, an extension of $τ$-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, $τ$-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only $\sim$25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, $τ$-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.
- Abstract(参考訳): 会話エージェントは、ユーザとのライブインタラクション中に、大規模でプロプライエタリな、非構造的なコーパスからドメイン固有の知識を取得し、適用することに依存する、知識集約的な環境にますますデプロイされる。
しかし、既存のベンチマークのほとんどは、互いに独立して検索やツールの使用を評価し、長い水平相互作用における非構造化データに対する現実的で完全なエージェント的評価のギャップを生んでいる。
我々は、外部の自然言語知識をツール出力と協調させて、検証可能なポリシーに準拠した状態変化を生成する環境において、エージェントを評価するための$τ$-Knowledgeを紹介した。
私たちの新しいドメインである$τ$-Bankingは、実際のフィンテック顧客サポートワークフローをモデル化します。
埋め込みベースの検索と端末ベースの検索は、高い推論予算を持つフロンティアモデルでさえ、$\sim$25.5%のパス^1しか得られず、信頼性は繰り返し試行よりも著しく低下している。
エージェントは、密接なリンクされた知識ベースから正しいドキュメントを取得し、複雑な内部ポリシーを正確に推論するのに苦労する。
全体としては、$τ$-Knowledgeは、ヒューマン対応デプロイメントに非構造化知識を統合するエージェントを開発するための現実的なテストベッドを提供する。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI [2.0619484032730813]
UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。
各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。
UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
論文 参考訳(メタデータ) (2025-11-15T17:39:37Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - Transparent, Evaluable, and Accessible Data Agents: A Proof-of-Concept Framework [0.0]
本稿では、AIエージェントの開発と評価のためのモジュール型コンポーネントベースのアーキテクチャについて述べる。
このシステムは、技術的でないユーザが複雑なデータウェアハウスと対話できるようにすることによって、データアクセシビリティにおける中核的な課題に対処する。
設計の要点は、多層推論フレームワークを通じて達成される透明な意思決定へのコミットメントである。
論文 参考訳(メタデータ) (2025-09-28T23:54:41Z) - Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance [58.21767225794469]
大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。
テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。
ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。
論文 参考訳(メタデータ) (2025-07-23T02:12:32Z) - Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - DeepTrust: A Reliable Financial Knowledge Retrieval Framework For
Explaining Extreme Pricing Anomalies [0.0]
DeepTrustは、Twitter上の信頼できる金融知識検索フレームワークで、極端な価格変動を高速で説明する。
提案するフレームワークは,異常検出,情報検索,信頼性評価のための3つのモジュールから構成される。
このフレームワークは2021年4月29日と30日の2つの自己注釈付き金融異常、すなわちTwitterとFacebookの株価で評価されている。
論文 参考訳(メタデータ) (2022-03-11T06:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。