論文の概要: CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning
- arxiv url: http://arxiv.org/abs/2411.16313v3
- Date: Sun, 13 Jul 2025 10:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.741935
- Title: CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning
- Title(参考訳): CATP-LLM:コスト対応ツール計画のための大規模言語モデル
- Authors: Duo Wu, Jinghe Wang, Yuan Meng, Yanning Zhang, Le Sun, Zhi Wang,
- Abstract要約: コスト対応ツール計画のためのLCM(CATP-LLM)フレームワークを提案する。
具体的には、多分岐非順序計画を作成するためのLLMを強化するためのツール計画言語を設計する。
また,多様なタスクから11,100個の評価サンプルを含む,コスト対応プランニングのための最初のデータセットであるOpenCATPについても紹介する。
- 参考スコア(独自算出の注目度): 43.13654681136326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing large language models (LLMs) for tool planning has emerged as a promising avenue for developing general AI systems, where LLMs automatically schedule external tools (e.g., vision models) to tackle complex tasks based on task descriptions. To push this paradigm toward practical applications, it is crucial for LLMs to consider tool execution costs (e.g., execution time) for tool planning. Unfortunately, prior studies overlook the tool execution costs, leading to the generation of expensive plans whose costs outweigh their benefits in terms of task performance. To fill this gap, we propose the Cost-Aware Tool Planning with LLMs (CATP-LLM) framework, which for the first time provides a coherent design to empower LLMs for cost-aware tool planning. Specifically, To facilitate efficient concurrent tool execution and cost reduction, we design a tool planning language to enhance the LLM for creating multi-branch non-sequential plans. Moreover, we propose a cost-aware offline reinforcement learning algorithm to fine-tune the LLM to optimize the performance-cost trade-off in tool planning. In the lack of public cost-related datasets, we further present OpenCATP, the first dataset for cost-aware planning, which comprises 11,100 evaluation samples from diverse tasks. Extensive experiments show that CATP-LLM outperforms GPT-4 even when using Llama2-7B as its backbone, with the average improvement of 1.5%-93.9% in terms of plan quality. Codes and dataset are available at: https://github.com/duowuyms/OpenCATP-LLM.
- Abstract(参考訳): ツール計画のための大規模言語モデル(LLM)の利用は、一般的なAIシステムを開発するための有望な道として現れ、LCMはタスク記述に基づいた複雑なタスクに取り組むために、外部ツール(例えばビジョンモデル)を自動的にスケジュールする。
このパラダイムを実践的なアプリケーションに向けて進めるためには、ツール計画のためのツール実行コスト(例えば、実行時間)を考慮することがLLMにとって重要です。
残念ながら、以前の研究ではツールの実行コストを見落としており、コストがタスクパフォーマンスの面で利益を上回るような高価なプランが生み出されている。
このギャップを埋めるために、コスト対応ツールプランニングのためのコヒーレントな設計を初めて提供するLCM(Cost-Aware Tool Planning with LLMs)フレームワークを提案する。
具体的には、効率的な並行ツールの実行とコスト削減を容易にするために、多分岐非順序計画を作成するためのLLMを強化するためのツール計画言語を設計する。
さらに,ツールプランニングにおける性能・コストトレードオフを最適化するために,LCMを微調整するコスト対応オフライン強化学習アルゴリズムを提案する。
公共のコスト関連データセットが欠如しているため、さまざまなタスクから11,100個の評価サンプルを含む、コスト対応プランニングのための最初のデータセットであるOpenCATPについても紹介する。
CATP-LLM は Llama2-7B を背骨として使用しても GPT-4 より優れており、計画品質は平均 1.5%-93.9% 向上している。
コードとデータセットは、https://github.com/duowuyms/OpenCATP-LLM.comで入手できる。
関連論文リスト
- PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching [2.382770686742571]
LLMベースのエージェントアプリケーションは、広範な計画と推論要求のためにかなりのコストがかかる。
既存のLCMキャッシュ技術は、外部データや環境コンテキストに依存するエージェントアプリケーションには不十分である。
提案するエージェント型プランキャッシュは,構造化されたプランテンプレートを抽出し,保存し,適応し,再利用する新しい手法である。
論文 参考訳(メタデータ) (2025-06-17T04:42:30Z) - Circinus: Efficient Query Planner for Compound ML Serving [3.6295638972280733]
本稿では,大規模複合AIワークロードを対象としたSLO対応クエリプランナであるCircinusを提案する。
クエリ内およびクエリ間の計画類似性を活用することで、Circinusは検索ステップを大幅に削減する。
評価によると、Circinusはサービス品質を3.2-5.0$times$で改善し、クエリプランニングを4.2-5.8$times$で加速し、クエリレスポンスを数秒で達成している。
論文 参考訳(メタデータ) (2025-04-23T03:57:24Z) - Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。
モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。
本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。
これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。
したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文 参考訳(メタデータ) (2025-02-01T12:08:38Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines [29.25579967636023]
CEBenchは、オンラインの大規模言語モデルをベンチマークするためのオープンソースのツールキットである。
LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
この能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
論文 参考訳(メタデータ) (2024-06-20T21:36:00Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Tool-Planner: Task Planning with Clusters across Multiple Tools [29.278169900986434]
ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。
Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。
ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
論文 参考訳(メタデータ) (2024-06-06T07:30:14Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - GeckOpt: LLM System Efficiency via Intent-Based Tool Selection [1.8434042562191815]
GPTに基づく大規模言語モデル(LLM)の合理化ツール選択のための推論手法について検討する。
実行時にユーザプロンプトの背後にある意図を特定することで、タスク実行に必要なAPIを縮小し、トークン使用量を最大24.6%削減します。
100以上のGPT-4-Turboノードを持つ現実世界の大規模並列Copilotプラットフォームの初期結果は、LCMベースのシステム効率を改善するためのコスト削減と可能性を示している。
論文 参考訳(メタデータ) (2024-04-24T11:03:15Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z) - Optimal Cost Design for Model Predictive Control [30.86835688868485]
多くのロボティクスドメインは、計画に非モデル制御(MPC)を使用し、時間的地平線を減らし、最適化を行い、各ステップで再計画を行う。
本研究では, MPC を用いて最適化するコストは, タスクの真理コスト(端末コスト)と同等である,という一般的な仮定に挑戦する。
連続型MDPにおけるMPC計画ロボットの最適コストを設計できるゼロ階トラジェクトリに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-23T00:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。