論文の概要: TroVE: Inducing Verifiable and Efficient Toolboxes for Solving
Programmatic Tasks
- arxiv url: http://arxiv.org/abs/2401.12869v1
- Date: Tue, 23 Jan 2024 16:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:06:52.458240
- Title: TroVE: Inducing Verifiable and Efficient Toolboxes for Solving
Programmatic Tasks
- Title(参考訳): TroVE: プログラムタスクの解決に有効なツールボックス
- Authors: Zhiruo Wang, Daniel Fried, Graham Neubig
- Abstract要約: 言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるといったタスクを解くことができる。
人間の労力を使わずにより良いソリューションを実現するために、コードLMに再利用可能な高レベル関数のキュレートを依頼する。
本稿では,関数の検証と効率的なツールボックスを誘導するトレーニング不要なTROVEを提案する。
- 参考スコア(独自算出の注目度): 75.1781376169951
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models (LMs) can solve tasks such as answering questions about
tables or images by writing programs. However, using primitive functions often
leads to verbose and error-prone programs, and higher-level functions require
expert design. To enable better solutions without human labor, we ask code LMs
to curate reusable high-level functions, and use them to write solutions. We
present TROVE, a training-free method of inducing a verifiable and efficient
toolbox of functions, by generating via using, growing, and periodically
trimming the toolbox. On 11 datasets from math, table question answering, and
image reasoning tasks, TROVE consistently yields simpler solutions with higher
accuracy than baselines using CODELLAMA and previous methods using GPT, while
using 79-98% smaller toolboxes. TROVE further enables 31% faster and 13% more
accurate human verification than baselines. With the same pipeline, it creates
diverse functions for varied tasks and datasets, providing insights into their
individual characteristics.
- Abstract(参考訳): 言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるタスクを解くことができる。
しかし、プリミティブ関数の使用はしばしば冗長でエラーやすいプログラムにつながり、より高いレベルの関数はエキスパート設計を必要とする。
人的労力なしでより良いソリューションを実現するために、我々はコードlmsに再利用可能な高レベル関数のキュレーションを依頼し、それらをソリューションを書くために使用します。
本稿では,ツールボックスの使用,成長,定期的なトリミングにより,検証可能かつ効率的な機能のツールボックスを誘導するトレーニングフリーな方法であるtroveを提案する。
数学、テーブル質問応答、画像推論タスクの11のデータセットにおいて、TROVEは、CODELLAMAやGPTを使った従来の手法に比べて、より単純なソリューションを一貫して生成し、79~98%小さいツールボックスを使用する。
troveは、ベースラインよりも31%高速で13%正確な人間の検証を可能にする。
同じパイプラインで、さまざまなタスクやデータセットに対してさまざまな関数を生成し、個々の特性に関する洞察を提供する。
関連論文リスト
- ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [49.04652315815501]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Efficient and Scalable Estimation of Tool Representations in Vector Space [34.767193045989515]
ツール検索のための合成データを生成するためのフレームワークと,小型エンコーダモデルを用いた効率的なデータ駆動型ツール検索戦略を提案する。
ToolBankは、実際のユーザ利用を反映した、新しいツール検索データセットです。
これらの新しい方法により、ToolBenchデータセット上のRecall@Kで最大27.28、ToolBank上のRecall@Kで30.5の改善を実現しています。
論文 参考訳(メタデータ) (2024-09-02T19:39:24Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。