論文の概要: OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning
- arxiv url: http://arxiv.org/abs/2502.11271v1
- Date: Sun, 16 Feb 2025 21:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:50.970074
- Title: OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning
- Title(参考訳): OctoTools: 複雑な推論のための拡張可能なツールを備えたエージェントフレームワーク
- Authors: Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou,
- Abstract要約: OctoToolsはトレーニング不要で、ユーザフレンドリで、オープンソースのエージェントフレームワークで、さまざまなドメインにわたる複雑な推論に対処するために設計されている。
我々は16種類のタスクでOctoToolsの一般性を検証し、GPT-4oに対して9.3%の精度向上を達成した。
OctoToolsはAutoGen、GPT-Functions、LangChainを10.6%上回っている。
- 参考スコア(独自算出の注目度): 47.51937366171448
- License:
- Abstract: Solving complex reasoning tasks may involve visual understanding, domain knowledge retrieval, numerical calculation, and multi-step reasoning. Existing methods augment large language models (LLMs) with external tools but are restricted to specialized domains, limited tool types, or require additional training data. In this paper, we introduce OctoTools, a training-free, user-friendly, and easily extensible open-source agentic framework designed to tackle complex reasoning across diverse domains. OctoTools introduces standardized tool cards to encapsulate tool functionality, a planner for both high-level and low-level planning, and an executor to carry out tool usage. We validate OctoTools' generality across 16 diverse tasks (including MathVista, MMLU-Pro, MedQA, and GAIA-Text), achieving substantial average accuracy gains of 9.3% over GPT-4o. Furthermore, OctoTools outperforms AutoGen, GPT-Functions and LangChain by up to 10.6% when given the same set of tools. Through comprehensive analysis and ablations, OctoTools demonstrates advantages in task planning, effective tool usage, and multi-step problem solving.
- Abstract(参考訳): 複雑な推論タスクの解決には、視覚的理解、ドメイン知識の検索、数値計算、多段階推論が含まれる。
既存のメソッドは、外部ツールで大きな言語モデル(LLM)を拡張するが、特殊なドメイン、限られたツールタイプ、追加のトレーニングデータに制限される。
本稿では,多様なドメインにまたがる複雑な推論に対処するために設計された,トレーニングフリーでユーザフレンドリで,拡張が容易なオープンソースエージェントフレームワークであるOctoToolsを紹介する。
OctoToolsでは、ツール機能をカプセル化するための標準化されたツールカード、高レベルプランニングと低レベルプランニングのためのプランナー、ツール使用を実行するエグゼキュータが導入されている。
我々は,16種類のタスク(MathVista,MMLU-Pro,MedQA,GAIA-Textなど)におけるOctoToolsの一般性を検証する。
さらに、OctoToolsはAutoGen、GPT-Functions、LangChainよりも10.6%パフォーマンスが良い。
包括的な分析と改善を通じて、OctoToolsはタスク計画、効果的なツール使用、マルチステップ問題解決の利点を示している。
関連論文リスト
- ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。
ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。
ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文 参考訳(メタデータ) (2024-10-04T13:52:32Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - Tool-Planner: Task Planning with Clusters across Multiple Tools [29.278169900986434]
ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。
Tool-Plannerは、同じ関数を持つAPI関数に基づいたツールをツールキットにグループ化し、LLMがさまざまなツールキットで計画を実装することを可能にする。
論文 参考訳(メタデータ) (2024-06-06T07:30:14Z) - SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。
この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。
約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。
MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文 参考訳(メタデータ) (2024-02-18T04:19:44Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ToolTalk: Evaluating Tool-Usage in a Conversational Setting [6.792842055445584]
本稿では,対話によって特定される多段階ツールの使用を必要とする複雑なユーザ意図のベンチマークであるToolTalkを紹介する。
ToolTalkには7つのプラグインにグループ化された28のツールが含まれており、各ツールの完全なシミュレートされた実装が含まれている。
ツールTalkにおけるGPT-3.5とGPT-4の評価は,それぞれ26%,50%であった。
論文 参考訳(メタデータ) (2023-11-15T23:50:31Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via
Tool Embeddings [25.5476046472217]
大規模な言語モデルを外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。
最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にする。
我々は、両者の利点を組み合わせた代替アプローチである$textbfToolkenGPT$を提案する。
論文 参考訳(メタデータ) (2023-05-19T09:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。