Fugu-MT 論文翻訳(概要): Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges

論文の概要: Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges

arxiv url: http://arxiv.org/abs/2505.13328v1
Date: Mon, 19 May 2025 16:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.741893
Title: Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges
Title（参考訳）: マルチターン対話におけるステートフルツールの使用を再考する - ベンチマークと課題
Authors: Hongru Wang, Wenyu Huang, Yufei Wang, Yuanhao Xi, Jianqiao Lu, Huan Zhang, Nan Hu, Zeming Liu, Jeff Z. Pan, Kam-Fai Wong,
Abstract要約: 既存のベンチマークでは、言語モデル(LM)を言語エージェント(LA)としてツールとして評価しており、主にシングルターンインタラクションに重点を置いている。ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである textttDialogTool を提案する。
参考スコア（独自算出の注目度）: 30.68589269821412
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Existing benchmarks that assess Language Models (LMs) as Language Agents (LAs) for tool use primarily focus on stateless, single-turn interactions or partial evaluations, such as tool selection in a single turn, overlooking the inherent stateful nature of interactions in multi-turn applications. To fulfill this gap, we propose \texttt{DialogTool}, a multi-turn dialogue dataset with stateful tool interactions considering the whole life cycle of tool use, across six key tasks in three stages: 1) \textit{tool creation}; 2) \textit{tool utilization}: tool awareness, tool selection, tool execution; and 3) \textit{role-consistent response}: response generation and role play. Furthermore, we build \texttt{VirtualMobile} -- an embodied virtual mobile evaluation environment to simulate API calls and assess the robustness of the created APIs\footnote{We will use tools and APIs alternatively, there are no significant differences between them in this paper.}. Taking advantage of these artifacts, we conduct comprehensive evaluation on 13 distinct open- and closed-source LLMs and provide detailed analysis at each stage, revealing that the existing state-of-the-art LLMs still cannot perform well to use tools over long horizons.
Abstract（参考訳）: ツールのための言語モデル(LM)を言語エージェント(LA)として評価する既存のベンチマークは、主にステートレスなシングルターンインタラクションや、マルチターンアプリケーションにおけるインタラクションの本質的なステートフルな性質を見越して、ツールの選択のような部分的な評価に焦点を当てている。このギャップを埋めるために,ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである‘texttt{DialogTool}’を提案する。 1) \textit{tool creation} 2) \textit{tool utilization}:ツール認識、ツール選択、ツール実行 3) \textit{role-consistent response}: 応答生成とロールプレイ。さらに、API呼び出しをシミュレートし、生成されたAPIの堅牢性を評価するための仮想モバイル評価環境である \texttt{VirtualMobile} を構築します。と。これらの成果を生かして,13の異なるオープンソース LLM とクローズドソース LLM を包括的に評価し,各段階で詳細な解析を行った。

関連論文リスト

ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions [9.825432101000358]
ToolHaystackは、長期的なインタラクションにおけるツール使用機能をテストするためのベンチマークです。各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。現在のモデルでは、標準的なマルチターン設定ではうまく機能しますが、ToolHaystackではかなり苦労しています。
論文参考訳（メタデータ） (2025-05-29T17:10:12Z)
Advancing and Benchmarking Personalized Tool Invocation for LLMs [66.39214525683425]
パーソナライズされたツール呼び出しの概念を導入し、ツールの優先度とプロファイルに依存したクエリという2つの重要なタスクを定義します。これらの課題に対処するために、パーソナライズされたツール呼び出し用に設計されたデータ合成フレームワークであるPToolを提案する。パーソナライズされたツール呼び出しを評価するための最初のベンチマークである textbfPTBench を構築した。
論文参考訳（メタデータ） (2025-05-07T02:25:20Z)
ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。データを評価方法論に基づく3つの主要なタイプに分類する。これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文参考訳（メタデータ） (2025-01-22T12:59:08Z)
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。 ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文参考訳（メタデータ） (2024-08-08T05:45:42Z)
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-08-03T22:49:27Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文参考訳（メタデータ） (2024-01-30T16:52:56Z)
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文参考訳（メタデータ） (2023-07-31T15:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。