Fugu-MT 論文翻訳(概要): Reducing Tool Hallucination via Reliability Alignment

論文の概要: Reducing Tool Hallucination via Reliability Alignment

arxiv url: http://arxiv.org/abs/2412.04141v1
Date: Thu, 05 Dec 2024 13:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:02.063683
Title: Reducing Tool Hallucination via Reliability Alignment
Title（参考訳）: 信頼性アライメントによるツール幻覚の低減
Authors: Hongshen Xu, Su Zhu, Zihan Wang, Hang Zheng, Da Ma, Ruisheng Cao, Shuai Fan, Lu Chen, Kai Yu,
Abstract要約: 大きな言語モデル(LLM)は、ツールコールを通じて外部システムと対話する言語生成を超えて、その能力を拡張した。本稿では,信頼度の高いツールコールの概念を考察し,ツールの幻覚に対処する必要性を強調した。本稿では,信頼性を重視したアライメントフレームワークを提案する。
参考スコア（独自算出の注目度）: 32.73502622563164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have extended their capabilities beyond language generation to interact with external systems through tool calling, offering powerful potential for real-world applications. However, the phenomenon of tool hallucinations, which occur when models improperly select or misuse tools, presents critical challenges that can lead to flawed task execution and increased operational costs. This paper investigates the concept of reliable tool calling and highlights the necessity of addressing tool hallucinations. We systematically categorize tool hallucinations into two main types: tool selection hallucination and tool usage hallucination. To mitigate these issues, we propose a reliability-focused alignment framework that enhances the model's ability to accurately assess tool relevance and usage. By proposing a suite of evaluation metrics and evaluating on StableToolBench, we further demonstrate the effectiveness of our framework in mitigating tool hallucination and improving the overall system reliability of LLM tool calling.
Abstract（参考訳）: 大きな言語モデル(LLM)は、言語生成を超えて、ツールコールを通じて外部システムと対話する能力を拡張し、現実世界のアプリケーションに強力な可能性を提供します。しかし、モデルが不適切な選択や誤用を行う場合に発生するツール幻覚の現象は、欠陥のあるタスクの実行と運用コストの増加につながる重要な課題を提示する。本稿では,信頼度の高いツールコールの概念を考察し,ツールの幻覚に対処する必要性を強調した。ツール選択幻覚とツール使用幻覚の2種類に分類した。これらの問題を緩和するために,信頼性を重視したアライメントフレームワークを提案する。評価指標のスイートを提案し,StableToolBenchを用いた評価を行うことで,LLMツール呼び出しの幻覚を緩和し,システム全体の信頼性を向上させるためのフレームワークの有効性をさらに実証する。

関連論文リスト

Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
Alignment for Efficient Tool Calling of Large Language Models [34.748897353548756]
大きな言語モデル(LLM)は、外部ツールを統合することができ、知識境界を広げてタスクパフォーマンスを向上させる。しかしながら、ツールに依存すると、パフォーマンス、スピード、コストのトレードオフが発生することが多い。本稿では,LSMを知識境界に整合させ,ツールの実行に関するよりインテリジェントな判断を行うという課題に対処する。
論文参考訳（メタデータ） (2025-03-09T17:55:49Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文参考訳（メタデータ） (2024-10-10T17:58:44Z)
Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文参考訳（メタデータ） (2024-10-09T07:14:45Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文参考訳（メタデータ） (2024-06-25T11:12:01Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文参考訳（メタデータ） (2024-01-30T16:52:56Z)
Don't Fine-Tune, Decode: Syntax Error-Free Tool Use via Constrained Decoding [11.51687663492722]
大きな言語モデル(LLM)は多くのタスクで優れていますが、複雑な構文制約のため、外部ツールの使用に失敗することが多いのです。本研究では,有限状態マシンを用いた復号アルゴリズムTOOLDECを提案する。実験の結果、TOOLDECはすべての構文エラーを排除し、様々なベースモデルやベンチマークのパフォーマンスが大幅に向上した。
論文参考訳（メタデータ） (2023-10-10T23:37:53Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)
Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文参考訳（メタデータ） (2023-05-22T14:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。