論文の概要: Tools Fail: Detecting Silent Errors in Faulty Tools
- arxiv url: http://arxiv.org/abs/2406.19228v1
- Date: Thu, 27 Jun 2024 14:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:48:33.195361
- Title: Tools Fail: Detecting Silent Errors in Faulty Tools
- Title(参考訳): ツールフェール: 障害ツールにおけるサイレントエラーの検出
- Authors: Jimin Sun, So Yeon Min, Yingshan Chang, Yonatan Bisk,
- Abstract要約: 我々は、モデルが「サイレント」ツールを検出する能力を調べるためのツールのためのフレームワークを紹介します。
制御電卓設定と具体化エージェント計画の両方で有望な結果が得られるような早期の故障復旧手法を提案する。
- 参考スコア(独自算出の注目度): 27.822981272044043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tools have become a mainstay of LLMs, allowing them to retrieve knowledge not in their weights, to perform tasks on the web, and even to control robots. However, most ontologies and surveys of tool-use have assumed the core challenge for LLMs is choosing the tool. Instead, we introduce a framework for tools more broadly which guides us to explore a model's ability to detect "silent" tool errors, and reflect on how to plan. This more directly aligns with the increasingly popular use of models as tools. We provide an initial approach to failure recovery with promising results both on a controlled calculator setting and embodied agent planning.
- Abstract(参考訳): ツールはLLMのメインステイとなり、ウェイトではなく知識を検索したり、ウェブ上でタスクを実行したり、ロボットを制御したりすることが可能になった。
しかし、ツール利用に関する多くのオントロジーや調査は、LLMにとっての中核的な課題はツールを選択することであると仮定している。
その代わりに、より広範囲にツールのためのフレームワークを導入し、モデルが“サイレント”なツールエラーを検知し、どのように計画するかを反映する能力を探求できるようにします。
これは、ますます普及しているツールとしてのモデルの使用と直接的に一致している。
制御電卓設定と具体化エージェント計画の両方で有望な結果が得られるような早期の故障復旧手法を提案する。
関連論文リスト
- Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering [30.25234781338571]
ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。
Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。
ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
論文 参考訳(メタデータ) (2024-06-06T07:30:14Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - ToolNet: Connecting Large Language Models with Massive Tools via Tool
Graph [43.95759808077083]
既存のテキスト内学習アプローチは、ツールを単純なテキスト記述のリストにフォーマットし、大きな言語モデルに入力する。
本稿では,トークン消費を適度に増加させ,ツールの数を数千にスケールアップするプラグイン・アンド・プレイ・フレームワークであるToolNetを提案する。
論文 参考訳(メタデータ) (2024-02-29T02:04:00Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z) - Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。
既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。
ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。