論文の概要: Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees
- arxiv url: http://arxiv.org/abs/2406.07115v2
- Date: Fri, 21 Mar 2025 08:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:50.356381
- Title: Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees
- Title(参考訳): ツール強化された大規模言語モデルの拡張:推論ツリーのエラーからの洞察を統合する
- Authors: Sijia Chen, Yibo Wang, Yi-Feng Wu, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang,
- Abstract要約: 本稿では,この制限に対処するための選好学習に基づく推論軌道最適化フレームワークを提案する。
まず,木のような専門的軌跡からステップワイズな選好データを構築する手法を提案する。
提案実験により, TP-LLaMAは, 推定木における誤差から洞察を得ることにより, ベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 37.297431187924765
- License:
- Abstract: Tool-augmented large language models (LLMs) leverage tools, often in the form of APIs, to improve their reasoning capabilities on complex tasks. This enables them to act as intelligent agents interacting with the real world. The recently introduced ToolLLaMA model by Qin et al. [2023] utilizes the depth-first search-based decision tree (DFSDT) mechanism for multi-step reasoning with $16000+$ real-world APIs, effectively enhancing the performance of tool-augmented LLMs compared to traditional chain reasoning mechanisms. However, their approach only employs successful paths from decision trees (also called inference trees) for supervised fine-tuning (SFT), missing out on the potential learning opportunities from failed paths. Inspired by this, we propose an inference trajectory optimization framework based on preference learning to address this limitation. We first introduce a novel method for constructing step-wise preference data from tree-like expert trajectories, which leverages the previously ignored failed explorations in the decision trees. In the subsequent training phase, we first fine-tune the LLM with successful tool-usage expert trajectories and then apply direct preference optimization (DPO) with the preference data to update the LLM's policy, resulting in our ToolPrefer-LLaMA (TP-LLaMA) model. This approach not only enhances the utilization of original expert data but also broadens the learning space of the model. Our experiments demonstrate that by obtaining insights from errors in inference trees, TP-LLaMA significantly outperforms the baselines across almost all test scenarios by a large margin and exhibits better generalization capabilities with unseen APIs. At the same time, TP-LLaMA has also demonstrated superior reasoning efficiency compared to the baselines, making it more suitable for complex tool-usage reasoning tasks.
- Abstract(参考訳): ツール拡張大型言語モデル(LLM)は、複雑なタスクにおける推論能力を改善するために、しばしばAPIの形でツールを活用する。
これにより、現実世界と対話するインテリジェントなエージェントとして振る舞うことができる。
Qinらによる最近導入されたToolLLaMAモデルは、16000ドル以上の実世界のAPIを用いた多段階推論にDeep-first search-based decision tree (DFSDT) メカニズムを利用しており、従来の連鎖推論機構と比較して、ツール拡張LDMの性能を効果的に向上させる。
しかし、彼らのアプローチは、教師付き微調整(SFT)のための決定木(推論木とも呼ばれる)からのパスのみを用いており、失敗するパスからの潜在的な学習機会を欠いている。
そこで本研究では,この制限に対処するための選好学習に基づく推論軌道最適化フレームワークを提案する。
まず,木のような専門的軌跡からステップワイドな選好データを構築する手法を提案する。
その後のトレーニング段階では、まずツール使用専門家の軌道をうまく調整し、その後、好みデータと直接選好最適化(DPO)を適用してLCMのポリシーを更新し、結果、ToolPrefer-LLaMA(TP-LLaMA)モデルを作成する。
このアプローチは、もともとのエキスパートデータの利用を促進させるだけでなく、モデルの学習空間も拡大する。
実験の結果, TP-LLaMAは, 推論ツリーの誤差から洞察を得ることで, ほぼすべてのテストシナリオにおいて, ベースラインをはるかに上回る性能を示し, 未知のAPIでより優れた一般化能力を示すことがわかった。
同時にTP-LLaMAはベースラインよりも優れた推論効率を示しており、複雑なツール使用推論タスクに適している。
関連論文リスト
- Divide-Then-Aggregate: An Efficient Tool Learning Method via Parallel Tool Invocation [36.29566268457534]
本稿では,新しい並列ツール呼び出しパラダイムDTA-Llamaを紹介する。
まず,従来の木に基づくツールサーチパスをDAG構造に変換する。
DTA-Llamaはデータセット上でトレーニングされ、現在のタスクを複数の並列ツール呼び出しサブタスクに反復的に分割する方法を学ぶ。
論文 参考訳(メタデータ) (2025-01-21T16:49:08Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。