論文の概要: Simulating Complex Multi-Turn Tool Calling Interactions in Stateless Execution Environments
- arxiv url: http://arxiv.org/abs/2601.19914v1
- Date: Tue, 06 Jan 2026 20:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.528037
- Title: Simulating Complex Multi-Turn Tool Calling Interactions in Stateless Execution Environments
- Title(参考訳): ステートレス実行環境における複合型マルチTurnツールによるインタラクションのシミュレーション
- Authors: Maxwell Crouse, Ibrahim Abdelaziz, Kshitij Fadnis, Siva Sankalp Patel, Kinjal Basu, Chulaka Gunasekara, Sadhana Kumaravel, Asim Munawar, Pavan Kapanipathi,
- Abstract要約: DiGiT-TCは、ステートフルな環境で検索によって生成された会話の特徴を持つ会話を呼び出すツールを作成するように設計されている。
標準ツール呼び出しベンチマークに対する我々のアプローチを検証するとともに、ステートフルな問題設定においても、我々のアプローチはパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 14.539418822648658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has proven itself to be a valuable resource for tuning smaller, cost-effective language models to handle the complexities of multi-turn tool calling conversations. While many frameworks and systems for producing synthetic multi-turn tool calling data have been proposed, prior works have frequently assumed that any tool calling interactions will take place in an execution environment that maintains state. When such an environment is available, this is advantageous as it allows for the validity of an interaction to be determined by whether or not the state of the execution environment matches to some prespecified objective. Unfortunately, this does not hold in many real-world tool use settings, e.g., in enterprise settings where data security is of the utmost importance or in cases where tool specifications are synthesized from multiple sources. In this work, we address this gap by introducing a data generation method, DiGiT-TC, that is designed to produce tool calling conversations that have the characteristics of conversations generated through search in a stateful environment. The key to our technique lies in a novel generation pattern that allows our approach to implicitly represent certain tool calls in the user request. We validate our approach on standard tool calling benchmarks and demonstrate that, even in stateful problem settings, our approach results in strong performance gains.
- Abstract(参考訳): 合成データは、会話を呼び出すマルチターンツールの複雑さを扱うために、より小型で費用効率のよい言語モデルをチューニングするための貴重なリソースであることが証明されている。
人工的なマルチターンツールコールデータを生成するためのフレームワークやシステムが数多く提案されているが、以前の研究では、状態を維持する実行環境において、あらゆるツールコールインタラクションが実行されると想定されていた。
このような環境が利用可能である場合、実行環境の状態が所定の目的に合致するか否かによって、インタラクションの妥当性を決定することができるため、これは有利である。
残念なことに、これは多くの実世界のツール利用設定、例えば、データセキュリティが最も重要であるエンタープライズ環境では、あるいはツール仕様が複数のソースから合成されている場合では、当てはまらない。
本研究では,このギャップに対処するため,ステートフルな環境での検索によって生成される会話の特徴を持つ対話ツールを作成可能なデータ生成手法であるDiGiT-TCを導入する。
私たちのテクニックの鍵は、ユーザリクエスト内の特定のツール呼び出しを暗黙的に表現できる新しい生成パターンにあります。
標準ツール呼び出しベンチマークに対する我々のアプローチを検証するとともに、ステートフルな問題設定においても、我々のアプローチはパフォーマンスが向上することを示す。
関連論文リスト
- FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions [9.825432101000358]
ToolHaystackは、長期的なインタラクションにおけるツール使用機能をテストするためのベンチマークです。
各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。
現在のモデルでは、標準的なマルチターン設定ではうまく機能しますが、ToolHaystackではかなり苦労しています。
論文 参考訳(メタデータ) (2025-05-29T17:10:12Z) - Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges [30.68589269821412]
既存のベンチマークでは、言語モデル(LM)を言語エージェント(LA)としてツールとして評価しており、主にシングルターンインタラクションに重点を置いている。
ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである textttDialogTool を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:36:13Z) - ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。