論文の概要: Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks
- arxiv url: http://arxiv.org/abs/2407.00121v1
- Date: Thu, 27 Jun 2024 17:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:20:13.830267
- Title: Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks
- Title(参考訳): グラファイト・ファンクション・コールモデル:グラニュラータスクのマルチタスク学習による機能呼び出し能力の導入
- Authors: Ibrahim Abdelaziz, Kinjal Basu, Mayank Agarwal, Sadhana Kumaravel, Matthew Stallone, Rameswar Panda, Yara Rizk, GP Bhargav, Maxwell Crouse, Chulaka Gunasekara, Shajith Ikbal, Sachin Joshi, Hima Karanam, Vineet Kumar, Asim Munawar, Sumit Neelam, Dinesh Raghu, Udit Sharma, Adriana Meza Soria, Dheeraj Sreedhar, Praveen Venkateswaran, Merve Unuvar, David Cox, Salim Roukos, Luis Lastras, Pavan Kapanipathi,
- Abstract要約: 我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 35.97890508648945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently shown tremendous promise in serving as the backbone to agentic systems, as demonstrated by their performance in multi-faceted, challenging benchmarks like SWE-Bench and Agent-Bench. However, to realize the true potential of LLMs as autonomous agents, they must learn to identify, call, and interact with external tools and application program interfaces (APIs) to complete complex tasks. These tasks together are termed function calling. Endowing LLMs with function calling abilities leads to a myriad of advantages, such as access to current and domain-specific information in databases and knowledge sources, and the ability to outsource tasks that can be reliably performed by tools, e.g., a Python interpreter or calculator. While there has been significant progress in function calling with LLMs, there is still a dearth of open models that perform on par with proprietary LLMs like GPT, Claude, and Gemini. Therefore, in this work, we introduce the GRANITE-20B-FUNCTIONCALLING model under an Apache 2.0 license. The model is trained using a multi-task training approach on seven fundamental tasks encompassed in function calling, those being Nested Function Calling, Function Chaining, Parallel Functions, Function Name Detection, Parameter-Value Pair Detection, Next-Best Function, and Response Generation. We present a comprehensive evaluation on multiple out-of-domain datasets comparing GRANITE-20B-FUNCTIONCALLING to more than 15 other best proprietary and open models. GRANITE-20B-FUNCTIONCALLING provides the best performance among all open models on the Berkeley Function Calling Leaderboard and fourth overall. As a result of the diverse tasks and datasets used for training our model, we show that GRANITE-20B-FUNCTIONCALLING has better generalizability on multiple tasks in seven different evaluation datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、SWE-BenchやAgent-Benchのような、多面的かつ挑戦的なベンチマークのパフォーマンスで示されるように、エージェントシステムのバックボーンとして機能する、という大きな可能性を最近示している。
しかし、自律エージェントとしてのLLMの真の可能性を実現するには、複雑なタスクを完了させるためには、外部ツールやアプリケーションプログラムインターフェース(API)を識別、呼び出し、操作することを学ぶ必要がある。
これらのタスクを合わせて関数呼び出しと呼ぶ。
LLMに関数呼び出し機能を持たせることで、データベースや知識ソースの現在の情報やドメイン固有の情報へのアクセスや、Pythonインタプリタや電卓などのツールで確実に実行できるタスクをアウトソースするといった、数多くのメリットがもたらされます。
LLMでの関数呼び出しには大きな進歩があったが、GPT、Claude、GeminiといったプロプライエタリなLLMと同等に動作するオープンモデルはまだ数多く存在する。
そこで本研究では,GRANITE-20B-FUNCTIONCALLINGモデルをApache 2.0ライセンス下で導入する。
このモデルは、Nested Function Calling、Function Chaining、Parallel Function、Function Name Detection、パラメータ値ペア検出、Next-Best Function、Response Generationといった、関数呼び出しを含む7つの基本的なタスクに基づいて、マルチタスクトレーニングアプローチを使用してトレーニングされる。
本稿では、GRANITE-20B-FUNCTIONCALLINGを15以上のベストプロプライエタリかつオープンなモデルと比較し、複数のドメイン外のデータセットの総合評価を行う。
GRANITE-20B-FUNCTIONCALLINGは、バークレー・ファンクション・コール・リーダーボードの全てのオープンモデルの中で最高のパフォーマンスを提供する。
その結果,GRANITE-20B-FUNCTIONCALLINGは7つの異なる評価データセットにおいて,複数のタスクに対してより一般化可能であることがわかった。
関連論文リスト
- Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning [36.17708271049462]
大規模言語モデル(LLM)は多様なタスクを実行する上で大きな可能性を秘めている。
本稿では,LLMがマルチターン関数呼び出しを行う上で,見過ごされる必要性に対処する。
BUTTONはボトムアップ命令構築とトップダウン軌道生成による合成合成命令チューニングデータを生成する。
論文 参考訳(メタデータ) (2024-10-16T18:40:26Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。