論文の概要: Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
- arxiv url: http://arxiv.org/abs/2507.03336v1
- Date: Fri, 04 Jul 2025 06:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.693596
- Title: Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
- Title(参考訳): 曖昧さ中心のファインタニングは、企業ツールのLLMをより現実的でリスクの少ないものにする
- Authors: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber,
- Abstract要約: 大規模言語モデル(LLM)はますますエンタープライズAPIの呼び出しを担っているが、ほぼ重複したツールが同じユーザ意図で動作しようとすると、日常的にフェールする。
人格駆動の多ターン対話を合成する,曖昧性中心の3段階パイプラインであるDiaFORGEを紹介する。
DiaBENCHのベンチマークでは、DiaFORGEでトレーニングしたモデルは、GPT-4oで27pp、Claude-3.5-Sonnetで49pp、それぞれ最適化されたプロンプトで成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますエンタープライズAPIの呼び出しを担っているが、ほぼ重複したツールが同じユーザ意図のために走ったり、必要な議論が過小評価されたりすると、日常的にフェールする。
曖昧性中心の3段階パイプラインであるDiaFORGE(Dialogue Framework for Organic Response Generation & Evaluation)を紹介する。
(i)アシスタントが極めて類似したツールを区別しなければならないペルソナ駆動多ターン対話を合成する。
(II)3B-70Bパラメータ間の推論トレースを用いたオープンソースモデルの教師付き微調整を行い、
3) 各モデルをエージェントループで再デプロイし、従来の静的メトリクスと並行してエンドツーエンドのゴール完了を報告する動的スイートを通じて、現実の可読性を評価する。
動的ベンチマークであるDiaBENCHでは、DiaFORGEでトレーニングされたモデルは、GPT-4oで27pp、Claude-3.5-Sonnetで49pp、それぞれ最適化されたプロンプトで成功した。
さらなる研究を促進するため、我々は、信頼性の高いエンタープライズ対応ツール呼び出しエージェントを構築するための実用的な青写真を提供する、厳格に検証された曖昧な対話と組み合わせた、5000のプロダクショングレードのエンタープライズAPI仕様のオープンコーパスをリリースする。
関連論文リスト
- Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges [30.68589269821412]
既存のベンチマークでは、言語モデル(LM)を言語エージェント(LA)としてツールとして評価しており、主にシングルターンインタラクションに重点を置いている。
ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである textttDialogTool を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:36:13Z) - DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models [7.404161214474878]
そこで本研究では,TA-LLMの対話能力を向上させる手法であるDiaTool-DPOを提案する。
TA-LLMインタラクションを5つの異なる対話状態を持つマルコフ決定プロセスとしてモデル化し、状態遷移軌跡に基づいてユーザクエリを3つのタイプに分類する。
評価の結果,DiaTool-DPOはGPT-4oの性能(情報収集では94.8%,ツールコールでは91%)に近づき,ベースラインよりも大幅に改善した。
論文 参考訳(メタデータ) (2025-04-02T05:47:28Z) - Evaluating and Enhancing Out-of-Domain Generalization of Task-Oriented Dialog Systems for Task Completion without Turn-level Dialog Annotations [2.453775887722866]
本研究は,大規模言語モデル(LLM)を自然言語ダイアログのみに微調整してToDタスクを実行できるかどうかを,このようなアノテーションを必要とせずに検討する。
ターンレベルのアノテーションを使わずに微調整されたモデルでは、一貫性のある適切な応答が生成される。
提案するZeroToDは,API呼び出し精度と全体的なタスク完了率を向上させるために,スキーマ拡張機構を組み込んだフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T22:10:51Z) - Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model [8.604654904400027]
対話型エージェント言語モデル(Conversational Agentic Language Model)を導入する。
CoALM-ITを用いて、上位ドメイン固有モデルを上回る3つのモデル、CoALM 8B、CoALM 70B、CoALM 405Bを訓練する。
論文 参考訳(メタデータ) (2025-02-12T22:18:34Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。