論文の概要: ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2406.20015v2
- Date: Fri, 04 Oct 2024 07:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:08.477741
- Title: ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models
- Title(参考訳): ToolBeHonest: ツール強化大言語モデルのための多段階幻覚診断ベンチマーク
- Authors: Yuxiang Zhang, Jing Chen, Junjie Wang, Yaxin Liu, Cheng Yang, Chufan Shi, Xinyu Zhu, Zihao Lin, Hanwen Wan, Yujiu Yang, Tetsuya Sakai, Tian Feng, Hayato Yamana,
- Abstract要約: ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。
この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。
ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。
結果は、ToolBHベンチマークで提示された重要な課題を示している。
- 参考スコア(独自算出の注目度): 43.895478182631116
- License:
- Abstract: Tool-augmented large language models (LLMs) are rapidly being integrated into real-world applications. Due to the lack of benchmarks, the community has yet to fully understand the hallucination issues within these models. To address this challenge, we introduce a comprehensive diagnostic benchmark, ToolBH. Specifically, we assess the LLM's hallucinations through two perspectives: depth and breadth. In terms of depth, we propose a multi-level diagnostic process, including (1) solvability detection, (2) solution planning, and (3) missing-tool analysis. For breadth, we consider three scenarios based on the characteristics of the toolset: missing necessary tools, potential tools, and limited functionality tools. Furthermore, we developed seven tasks and collected 700 evaluation samples through multiple rounds of manual annotation. The results show the significant challenges presented by the ToolBH benchmark. The current advanced models Gemini-1.5-Pro and GPT-4o only achieve total scores of 45.3 and 37.0, respectively, on a scale of 100. In this benchmark, larger model parameters do not guarantee better performance; the training data and response strategies also play crucial roles in tool-enhanced LLM scenarios. Our diagnostic analysis indicates that the primary reason for model errors lies in assessing task solvability. Additionally, open-weight models suffer from performance drops with verbose replies, whereas proprietary models excel with longer reasoning.
- Abstract(参考訳): ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。
ベンチマークの欠如のため、コミュニティはまだこれらのモデルにおける幻覚の問題を十分に理解していない。
この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。
具体的には,LLMの幻覚を深さと幅の2つの視点で評価する。
本研究では,(1)可溶性検出,(2)解法計画,(3)欠失ツール分析など多段階の診断プロセスを提案する。
ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。
さらに,7つのタスクを開発し,複数の手動アノテーションを用いて700個の評価サンプルを収集した。
結果は、ToolBHベンチマークで提示された重要な課題を示している。
現在のジェミニ1.5-ProとGPT-4oは、それぞれ45.3と37.0のスコアしか獲得していない。
このベンチマークでは、より大きなモデルパラメータはより良いパフォーマンスを保証しません。
診断分析の結果, モデル誤差の主な原因は, 課題解決可能性の評価にあることがわかった。
さらに、オープンウェイトモデルは冗長な応答を伴うパフォーマンス低下に悩まされる一方、プロプライエタリモデルはより長い推論で優れている。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use [51.43211624452462]
995のユーザクエリと3,912の関連ツールからなるデータセットであるToolHopを提示する。
ToolHopは、多様なクエリ、意味のある相互依存性、ローカル実行可能なツール、詳細なフィードバック、検証可能な回答を保証する。
5つのモデルファミリーにまたがる14のLSMを評価し、マルチホップツールの使用シナリオを扱う上で重要な課題を明らかにした。
論文 参考訳(メタデータ) (2025-01-05T11:06:55Z) - Diagnosing Robotics Systems Issues with Large Language Models [5.30112395683561]
大規模言語モデル(LLM)は大量のデータを分析するのに優れている。
ここでは、この研究を、ロボットシステムの難解で、ほとんど探索されていない領域に拡張する。
論文 参考訳(メタデータ) (2024-10-06T11:58:12Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。