論文の概要: Tools in the Loop: Quantifying Uncertainty of LLM Question Answering Systems That Use Tools
- arxiv url: http://arxiv.org/abs/2505.16113v1
- Date: Thu, 22 May 2025 01:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.962948
- Title: Tools in the Loop: Quantifying Uncertainty of LLM Question Answering Systems That Use Tools
- Title(参考訳): ループのツール:ツールを使用するLLM質問回答システムの不確かさの定量化
- Authors: Panagiotis Lymperopoulos, Vasanth Sarathy,
- Abstract要約: 大きな言語モデル(LLM)は、訓練済みの知識が不十分な領域で正確な答えを提供するために、外部ツールを必要とすることが多い。
医学的意思決定などの高度な応用においては、LCMが生成したテキストとツールの出力の両方の不確実性を評価することが不可欠である。
本稿では,LSMと外部ツールの予測不確かさを共同で考慮し,不確かさを定量化するツールコールのモデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.1970409518725493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Language Models (LLMs) often require external tools, such as machine learning classifiers or knowledge retrieval systems, to provide accurate answers in domains where their pre-trained knowledge is insufficient. This integration of LLMs with external tools expands their utility but also introduces a critical challenge: determining the trustworthiness of responses generated by the combined system. In high-stakes applications, such as medical decision-making, it is essential to assess the uncertainty of both the LLM's generated text and the tool's output to ensure the reliability of the final response. However, existing uncertainty quantification methods do not account for the tool-calling scenario, where both the LLM and external tool contribute to the overall system's uncertainty. In this work, we present a novel framework for modeling tool-calling LLMs that quantifies uncertainty by jointly considering the predictive uncertainty of the LLM and the external tool. We extend previous methods for uncertainty quantification over token sequences to this setting and propose efficient approximations that make uncertainty computation practical for real-world applications. We evaluate our framework on two new synthetic QA datasets, derived from well-known machine learning datasets, which require tool-calling for accurate answers. Additionally, we apply our method to retrieval-augmented generation (RAG) systems and conduct a proof-of-concept experiment demonstrating the effectiveness of our uncertainty metrics in scenarios where external information retrieval is needed. Our results show that the framework is effective in enhancing trust in LLM-based systems, especially in cases where the LLM's internal knowledge is insufficient and external tools are required.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、訓練済みの知識が不十分な領域で正確な答えを提供するために、機械学習分類器や知識検索システムのような外部ツールを必要とすることが多い。
このLCMと外部ツールの統合は、実用性を広げるだけでなく、統合されたシステムによって生成された応答の信頼性を決定するという重要な課題ももたらします。
医学的意思決定などの高度な応用においては、LCMが生成したテキストとツールの出力の両方の不確実性を評価し、最終応答の信頼性を確保することが不可欠である。
しかし、既存の不確実性定量化手法は、LCMと外部ツールの両方がシステム全体の不確実性に寄与するツール呼び出しシナリオを考慮に入れていない。
本研究では,LLMと外部ツールの予測不確かさを共同で考慮し,不確かさを定量化するツールコールのモデリングフレームワークを提案する。
本稿では,トークン列上の不確実性定量化手法をこの設定に拡張し,実世界のアプリケーションで不確実性計算を実践する効率的な近似法を提案する。
我々は、よく知られた機械学習データセットから派生した2つの新しい合成QAデータセットについて、正確な回答にツールコールを必要とするフレームワークを評価した。
さらに,本手法をRAGシステムに適用し,外部情報検索が必要なシナリオにおける不確実性指標の有効性を実証する概念実証実験を行う。
本研究は, LLM の内的知識が不十分で外部ツールが必要な場合において, LLM ベースのシステムの信頼性向上に有効であることを示す。
関連論文リスト
- Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.42251949130555]
マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す
最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。
本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文 参考訳(メタデータ) (2025-03-11T11:18:53Z) - Alignment for Efficient Tool Calling of Large Language Models [34.748897353548756]
大きな言語モデル(LLM)は、外部ツールを統合することができ、知識境界を広げてタスクパフォーマンスを向上させる。
しかしながら、ツールに依存すると、パフォーマンス、スピード、コストのトレードオフが発生することが多い。
本稿では,LSMを知識境界に整合させ,ツールの実行に関するよりインテリジェントな判断を行うという課題に対処する。
論文 参考訳(メタデータ) (2025-03-09T17:55:49Z) - Uncertainty Quantification of Large Language Models through Multi-Dimensional Responses [4.505944978127014]
セマンティック・ナレッジ・アウェア・類似性分析を統合した多次元UQフレームワークを提案する。
このアプローチは、意味と知識の両方の次元から重なり合う情報を分離し、意味のバリエーションと事実の一貫性の両方をキャプチャする。
実験により,本手法は不確かさを識別する既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-24T04:05:08Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - ChatSOS: LLM-based knowledge Q&A system for safety engineering [0.0]
本研究では,LLMに基づく安全工学のQ&Aシステムを導入し,モデルの理解と応答精度を向上させる。
我々は、外部知識データベースを組み込むために、即時エンジニアリングを採用し、LLMを最新かつ信頼性の高い情報で強化する。
以上の結果から,外部知識の統合は,奥行き問題解析や自律的なタスク割り当てにおいて,LLMの能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2023-12-14T03:25:23Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [69.50273822565363]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。