論文の概要: ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions
- arxiv url: http://arxiv.org/abs/2505.23662v1
- Date: Thu, 29 May 2025 17:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.021642
- Title: ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions
- Title(参考訳): ToolHaystack: ストレステストツール拡張言語モデル
- Authors: Beong-woo Kwak, Minju Kim, Dongha Lim, Hyungjoo Chae, Dongjin Kang, Sunghwan Kim, Dongil Yang, Jinyoung Yeo,
- Abstract要約: ToolHaystackは、長期的なインタラクションにおけるツール使用機能をテストするためのベンチマークです。
各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。
現在のモデルでは、標準的なマルチターン設定ではうまく機能しますが、ToolHaystackではかなり苦労しています。
- 参考スコア(独自算出の注目度): 9.825432101000358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in using external tools to address user inquiries. However, most existing evaluations assume tool use in short contexts, offering limited insight into model behavior during realistic long-term interactions. To fill this gap, we introduce ToolHaystack, a benchmark for testing the tool use capabilities in long-term interactions. Each test instance in ToolHaystack includes multiple tasks execution contexts and realistic noise within a continuous conversation, enabling assessment of how well models maintain context and handle various disruptions. By applying this benchmark to 14 state-of-the-art LLMs, we find that while current models perform well in standard multi-turn settings, they often significantly struggle in ToolHaystack, highlighting critical gaps in their long-term robustness not revealed by previous tool benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、外部ツールを使用してユーザからの問い合わせに対処する強力な能力を示している。
しかし、既存の評価のほとんどは、ツールの使用を短い文脈で想定し、現実的な長期的な相互作用におけるモデル行動についての限られた洞察を提供する。
このギャップを埋めるために、長期的なインタラクションでツールの使用能力をテストするためのベンチマークであるToolHaystackを紹介します。
ToolHaystackの各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。
このベンチマークを14の最先端のLCMに適用することにより、現在のモデルは標準的なマルチターン設定でうまく機能するが、ToolHaystackでは非常に苦労し、以前のツールベンチマークでは明らかにされていなかった長期的な堅牢性において重要なギャップを浮き彫りにした。
関連論文リスト
- Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges [30.68589269821412]
既存のベンチマークでは、言語モデル(LM)を言語エージェント(LA)としてツールとして評価しており、主にシングルターンインタラクションに重点を置いている。
ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである textttDialogTool を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:36:13Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。
ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。
オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文 参考訳(メタデータ) (2024-08-08T05:45:42Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。
ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文 参考訳(メタデータ) (2024-02-21T22:41:38Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。