Fugu-MT 論文翻訳(概要): Benchmarking Failures in Tool-Augmented Language Models

論文の概要: Benchmarking Failures in Tool-Augmented Language Models

arxiv url: http://arxiv.org/abs/2503.14227v1
Date: Tue, 18 Mar 2025 13:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:12.943982
Title: Benchmarking Failures in Tool-Augmented Language Models
Title（参考訳）: ツール拡張言語モデルにおけるベンチマーク失敗
Authors: Eduardo Treviño, Hugo Contant, James Ngai, Graham Neubig, Zora Zhiruo Wang,
Abstract要約: ツール拡張言語モデル(TaLM)は「完璧な」情報アクセスとツールの可用性を前提としている。 FAIL-TALMSベンチマークでは,未特定ユーザクエリと非利用ツールの2つの大きな障害を取り上げている。トップパフォーマンスのプロプライエタリモデルとオープンソースモデルを評価し、Claude以外の現在のモデルはすべて、行方不明のツールや情報を認識するのに苦労しています。
参考スコア（独自算出の注目度）: 41.94295877935867
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The integration of tools has extended the capabilities of language models (LMs) beyond vanilla text generation to versatile scenarios. However, tool-augmented language models (TaLMs) often assume 'perfect' information access and tool availability, which may not hold in the real world. To systematically study TaLMs' imperfections, we introduce the FAIL-TALMS benchmark, featuring two major failures: under-specified user queries and non-available tools. FAIL-TALMS contains 1,749 examples using 906 tools across 21 categories, including single- and multi-tool usage. We evaluate top-performing proprietary and open-source models, and find all current models except for Claude struggle to recognize missing tools or information. Further, to study possible mitigation of the failures, we enable real-time human interaction, named the Ask-and-Help (AAH) method, to provide missing information or replace non-functional tools. While AAH can help models solve tasks more correctly when queries are under-specified, it brings minimal benefit when complex tools are broken.
Abstract（参考訳）: ツールの統合は、バニラテキスト生成から汎用シナリオまで、言語モデル(LM)の機能を拡張した。しかし、ツール拡張言語モデル(TaLM)は、しばしば「完璧な」情報アクセスとツールの可用性を前提としており、これは現実世界には当てはまらない。 TaLMの欠陥を体系的に研究するために,FAIL-TALMSベンチマークを導入する。 FAIL-TALMSには、21カテゴリにわたる906ツールを使用した1,749のサンプルが含まれている。トップパフォーマンスのプロプライエタリモデルとオープンソースモデルを評価し、Claude以外の現在のモデルはすべて、行方不明のツールや情報を認識するのに苦労しています。さらに,障害の軽減の可能性を検討するために,Ask-and-Help (AAH) 法と呼ばれるリアルタイムヒューマンインタラクションを実現し,不足情報の提供や非機能ツールの代替を行う。 AAHは、クエリが未指定の場合には、モデルがタスクをより正確に解決するのに役立つが、複雑なツールが壊れた場合には、最小限のメリットをもたらす。

関連論文リスト

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models [47.145844910856134]
ツール学習は、多種多様なツールで大きな言語モデルを強化し、実践的なタスクを解決するエージェントとして機能することを目的としている。ツール利用LLMのコンテキスト長が限られているため、大きなツールセットから有用なツールを選択するために情報検索(IR)モデルを採用することが重要な初期ステップである。ほとんどのツール使用ベンチマークは、実際のシナリオとは程遠いタスクごとに、小さなツールセットを手動で注釈付けすることで、このステップを単純化している。多様な検索タスク7.6kと43kツールのコーパスからなる異種ツール検索ベンチマークであるToolRetを提案する。
論文参考訳（メタデータ） (2025-03-03T17:37:16Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文参考訳（メタデータ） (2024-06-25T11:12:01Z)
Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? [33.74511128798095]
本研究では,大規模言語モデルが不完全条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。実験の結果,LSMは特定のツールを利用するために必要な情報の欠如を特定するのに苦慮していることがわかった。本研究は,人間とLLMの相互作用における共通シナリオに対処することで,信頼性の高いLLMの進展に寄与することができる。
論文参考訳（メタデータ） (2024-06-18T06:28:06Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。 8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文参考訳（メタデータ） (2023-10-04T19:39:26Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)
Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文参考訳（メタデータ） (2023-05-22T14:37:05Z)
TALM: Tool Augmented Language Models [28.483609366116525]
トランスフォーマーベース言語モデル(LM)は、様々なタスクにまたがるスケールによるパフォーマンス向上を示す。本稿では,ツール拡張言語モデル(Tool Augmented Language Models,TALM)を提案する。 TALMは知識量の多いQAタスクと単純なツールによる推論指向の数学タスクの両方に強い性能を示す。
論文参考訳（メタデータ） (2022-05-24T17:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。