Fugu-MT 論文翻訳(概要): Can Tool-augmented Large Language Models be Aware of Incomplete Conditions?

論文の概要: Can Tool-augmented Large Language Models be Aware of Incomplete Conditions?

arxiv url: http://arxiv.org/abs/2406.12307v1
Date: Tue, 18 Jun 2024 06:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 20:25:52.444729
Title: Can Tool-augmented Large Language Models be Aware of Incomplete Conditions?
Title（参考訳）: ツール強化された大規模言語モデルは不完全な条件に気付くことができるか?
Authors: Seungbin Yang, ChaeHun Park, Taehee Kim, Jaegul Choo,
Abstract要約: 本研究では,大規模言語モデルが不完全条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。特定ツールの利用に必要な追加情報と適切なツールの欠如を識別するために,ほとんどのLCMが課題であることを確認した。
参考スコア（独自算出の注目度）: 33.74511128798095
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in integrating large language models (LLMs) with tools have allowed the models to interact with real-world environments. However, these tool-augmented LLMs often encounter incomplete scenarios when users provide partial information or the necessary tools are unavailable. Recognizing and managing such scenarios is crucial for LLMs to ensure their reliability, but this exploration remains understudied. This study examines whether LLMs can identify incomplete conditions and appropriately determine when to refrain from using tools. To this end, we address a dataset by manipulating instances from two datasets by removing necessary tools or essential information for tool invocation. We confirm that most LLMs are challenged to identify the additional information required to utilize specific tools and the absence of appropriate tools. Our research can contribute to advancing reliable LLMs by addressing scenarios that commonly arise during interactions between humans and LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)とツールの統合の最近の進歩により、モデルが現実世界の環境と対話できるようになった。しかし、これらのツール拡張 LLM は、ユーザーが部分的な情報を提供する場合や必要なツールが利用できない場合、不完全なシナリオに遭遇することが多い。このようなシナリオの認識と管理は、LSMにとって信頼性を確保することが重要であるが、この調査はまだ検討されていない。本研究では,LLMが不完全な条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。この目的のために、我々は2つのデータセットからインスタンスを操作することでデータセットに対処する。特定ツールの利用に必要な追加情報と適切なツールの欠如を識別するために,ほとんどのLCMが課題であることを確認した。我々の研究は、人間とLLMの相互作用において一般的に発生するシナリオに対処することで、信頼性の高いLLMの進化に寄与することができる。

関連論文リスト

FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
Benchmarking Failures in Tool-Augmented Language Models [41.94295877935867]
ツール拡張言語モデル(TaLM)は「完璧な」情報アクセスとツールの可用性を前提としている。 FAIL-TALMSベンチマークでは,未特定ユーザクエリと非利用ツールの2つの大きな障害を取り上げている。トップパフォーマンスのプロプライエタリモデルとオープンソースモデルを評価し、Claude以外の現在のモデルはすべて、行方不明のツールや情報を認識するのに苦労しています。
論文参考訳（メタデータ） (2025-03-18T13:04:55Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Self-Training Large Language Models for Tool-Use Without Demonstrations [15.17750971071501]
大規模言語モデル (LLMs) は、実際の不正確さや計算ミスに悩まされがちである。最近の研究は、これらの欠点を緩和するツールを備えたLCMを強化しているが、しばしば金の工具使用デモを必要とする。本稿では,LLMが実演なしでツールの活用を学べるかどうかを検討する。
論文参考訳（メタデータ） (2025-02-09T12:06:10Z)
Tool Unlearning for Tool-Augmented LLMs [14.755831733659699]
ツール強化された大規模言語モデル(LLM)は、クエリとレスポンスのペアのデータセットに基づいてトレーニングされることが多い。 ToolDeleteは、ツール拡張LDMからの未学習ツールの最初のアプローチである。
論文参考訳（メタデータ） (2025-02-03T05:50:55Z)
ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。データを評価方法論に基づく3つの主要なタイプに分類する。これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文参考訳（メタデータ） (2025-01-22T12:59:08Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models [31.742620965039517]
大きな言語モデル(LLM)は、NLPタスクに優れていますが、その能力を拡張するための外部ツールが必要です。 11個のデータセットでLCMを評価するためにW whether-or-notツール利用評価ベンチマーク(WTU-Eval)を導入する。 WTU-Eval 上での8つの LLM の結果は、LLM が一般的なデータセットでツールの使用方法を決定するのにしばしば苦労していることを示している。微調整のLlama2-7Bは14%の性能向上と16.8%の誤ったツール使用率の低下をもたらす。
論文参考訳（メタデータ） (2024-07-02T12:07:38Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Towards Practical Tool Usage for Continually Learning LLMs [28.62382804829694]
大規模言語モデルは、言語ベースのタスクを解くために生まれつきのスキルを示す。しかし、彼らの知識はパラメータの中に直接格納され、時間内には静的のままである。ツールの使用は、LLMがインターフェイスを通してアクセス可能なシステムに作業をオフロードするのに役立つ。しかし、それらを使用するLCMは、長期間使用するためには、まだ非定常環境に適応する必要がある。
論文参考訳（メタデータ） (2024-04-14T19:45:47Z)
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文参考訳（メタデータ） (2024-02-26T16:11:03Z)
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文参考訳（メタデータ） (2024-01-30T16:52:56Z)
EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-01-11T15:45:11Z)
ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios [48.38419686697733]
本稿では,大規模言語モデルのツール学習能力を評価するためのシステムであるToolEyesを提案する。このシステムは7つの現実シナリオを慎重に分析し、ツール学習においてLLMに不可欠な5次元を解析する。 ToolEyesには,約600のツールを備えたツールライブラリが組み込まれている。
論文参考訳（メタデータ） (2024-01-01T12:49:36Z)
MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。 8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文参考訳（メタデータ） (2023-10-04T19:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。