論文の概要: TroVE: Inducing Verifiable and Efficient Toolboxes for Solving
Programmatic Tasks
- arxiv url: http://arxiv.org/abs/2401.12869v1
- Date: Tue, 23 Jan 2024 16:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:06:52.458240
- Title: TroVE: Inducing Verifiable and Efficient Toolboxes for Solving
Programmatic Tasks
- Title(参考訳): TroVE: プログラムタスクの解決に有効なツールボックス
- Authors: Zhiruo Wang, Daniel Fried, Graham Neubig
- Abstract要約: 言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるといったタスクを解くことができる。
人間の労力を使わずにより良いソリューションを実現するために、コードLMに再利用可能な高レベル関数のキュレートを依頼する。
本稿では,関数の検証と効率的なツールボックスを誘導するトレーニング不要なTROVEを提案する。
- 参考スコア(独自算出の注目度): 75.1781376169951
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models (LMs) can solve tasks such as answering questions about
tables or images by writing programs. However, using primitive functions often
leads to verbose and error-prone programs, and higher-level functions require
expert design. To enable better solutions without human labor, we ask code LMs
to curate reusable high-level functions, and use them to write solutions. We
present TROVE, a training-free method of inducing a verifiable and efficient
toolbox of functions, by generating via using, growing, and periodically
trimming the toolbox. On 11 datasets from math, table question answering, and
image reasoning tasks, TROVE consistently yields simpler solutions with higher
accuracy than baselines using CODELLAMA and previous methods using GPT, while
using 79-98% smaller toolboxes. TROVE further enables 31% faster and 13% more
accurate human verification than baselines. With the same pipeline, it creates
diverse functions for varied tasks and datasets, providing insights into their
individual characteristics.
- Abstract(参考訳): 言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるタスクを解くことができる。
しかし、プリミティブ関数の使用はしばしば冗長でエラーやすいプログラムにつながり、より高いレベルの関数はエキスパート設計を必要とする。
人的労力なしでより良いソリューションを実現するために、我々はコードlmsに再利用可能な高レベル関数のキュレーションを依頼し、それらをソリューションを書くために使用します。
本稿では,ツールボックスの使用,成長,定期的なトリミングにより,検証可能かつ効率的な機能のツールボックスを誘導するトレーニングフリーな方法であるtroveを提案する。
数学、テーブル質問応答、画像推論タスクの11のデータセットにおいて、TROVEは、CODELLAMAやGPTを使った従来の手法に比べて、より単純なソリューションを一貫して生成し、79~98%小さいツールボックスを使用する。
troveは、ベースラインよりも31%高速で13%正確な人間の検証を可能にする。
同じパイプラインで、さまざまなタスクやデータセットに対してさまざまな関数を生成し、個々の特性に関する洞察を提供する。
関連論文リスト
- Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - PiVe: Prompting with Iterative Verification Improving Graph-based
Generative Capability of LLMs [30.955028295895104]
大規模言語モデルの出力の検証モジュールとして機能するために,小言語モデルをいかに訓練するかを示す。
また,検証モジュールがテキスト・ツー・グラフ生成タスクに対して,よりコスト効率のよいソリューションのために,繰り返し修正をオフラインで適用できることを示す。
論文 参考訳(メタデータ) (2023-05-21T08:11:24Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - When to Use Multi-Task Learning vs Intermediate Fine-Tuning for
Pre-Trained Encoder Transfer Learning [15.39115079099451]
近年,自然言語処理における伝達学習(TL)への関心が高まっている。
微調整中に複数の教師付きデータセットを使用するための3つの主要な戦略が登場した。
GLUEデータセットの包括的解析において,3つのTL手法を比較した。
論文 参考訳(メタデータ) (2022-05-17T06:48:45Z) - Auxiliary Task Update Decomposition: The Good, The Bad and The Neutral [18.387162887917164]
補助的タスク勾配のきめ細かい操作を行うモデルに依存しないフレームワークを定式化する。
そこで本研究では,タスクの損失を軽減・ダメージ・回避する方向に補助的な更新を分解することを提案する。
テキストと画像の分類タスクのアウト・オブ・ディストリビューションデータを活用する場合,我々のアプローチは一貫して,強靭で広く使用されているベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-08-25T17:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。