論文の概要: It's LIT! Reliability-Optimized LLMs with Inspectable Tools
- arxiv url: http://arxiv.org/abs/2511.14903v1
- Date: Tue, 18 Nov 2025 20:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.526102
- Title: It's LIT! Reliability-Optimized LLMs with Inspectable Tools
- Title(参考訳): インスペクタブルツールを用いた信頼性最適化LDM
- Authors: Ruixin Zhang, Jon Donnelly, Zhicheng Guo, Ghazal Khalighinejad, Haiyang Huang, Alina Jade Barnett, Cynthia Rudin,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
LLMはしばしば不透明な推論プロセスに従い、高い領域におけるそれらの有用性を制限する。
本稿では,既存のLCMのツールコール機能をベースに構築されたフレームワークについて述べる。
- 参考スコア(独自算出の注目度): 33.53798264548128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities across various domains. The ability to call external tools further expands their capability to handle real-world tasks. However, LLMs often follow an opaque reasoning process, which limits their usefulness in high-stakes domains where solutions need to be trustworthy to end users. LLMs can choose solutions that are unreliable and difficult to troubleshoot, even if better options are available. We address this issue by forcing LLMs to use external -- more reliable -- tools to solve problems when possible. We present a framework built on the tool-calling capabilities of existing LLMs to enable them to select the most reliable and easy-to-troubleshoot solution path, which may involve multiple sequential tool calls. We refer to this framework as LIT (LLMs with Inspectable Tools). In order to support LIT, we introduce a new and challenging benchmark dataset of 1,300 questions and a customizable set of reliability cost functions associated with a collection of specialized tools. These cost functions summarize how reliable each tool is and how easy it is to troubleshoot. For instance, a calculator is reliable across domains, whereas a linear prediction model is not reliable if there is distribution shift, but it is easy to troubleshoot. A tool that constructs a random forest is neither reliable nor easy to troubleshoot. These tools interact with the Harvard USPTO Patent Dataset and a new dataset of NeurIPS 2023 papers to solve mathematical, coding, and modeling problems of varying difficulty levels. We demonstrate that LLMs can achieve more reliable and informed problem-solving while maintaining task performance using our framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
外部ツールを呼び出す能力は、現実世界のタスクを処理する能力をさらに拡張します。
しかし、LSMは不透明な推論プロセスに追従することが多く、エンドユーザーにはソリューションを信頼できるものにする必要があるハイテイクなドメインにおいて、その有用性を制限している。
LLMは、たとえより良い選択肢が利用可能であっても、信頼性が低くトラブルシュートが難しいソリューションを選択することができる。
この問題に対処するために、LLMには、可能な限り解決するために外部(より信頼性の高い)ツールを使わざるを得ません。
本稿では,既存のLCMのツールコール機能をベースに構築されたフレームワークについて述べる。
このフレームワークを LIT (LLMs with Inspectable Tools) と呼ぶ。
LITをサポートするために、我々は1,300の質問からなる新しい、挑戦的なベンチマークデータセットと、専門ツールのコレクションに関連する信頼性コスト関数セットを導入する。
これらのコスト関数は、各ツールの信頼性とトラブルシューティングの容易さをまとめたものです。
例えば、電卓は領域間で信頼性があるが、線形予測モデルは分布シフトがある場合信頼できないが、トラブルシュートは容易である。
ランダムな森林を構築するツールは、信頼性もトラブルシュートも容易ではない。
これらのツールは、Harvard USPTO Patent DatasetとNeurIPS 2023論文の新しいデータセットと相互作用し、さまざまな難易度の数学的、コーディング、モデリングの問題を解決する。
LLMは、我々のフレームワークを使用してタスクパフォーマンスを維持しながら、より信頼性が高く、情報に富んだ問題解決を実現することができることを実証する。
関連論文リスト
- Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Achieving Tool Calling Functionality in LLMs Using Only Prompt Engineering Without Fine-Tuning [0.0]
現在、ローカルにデプロイされたオープンソースの大規模言語モデル(LLM)と、いくつかの商用モデルインターフェースは、安定したツール呼び出し機能をサポートしていない。
本稿では, プロンプトエンジニアリングといくつかの巧妙なコード設計のみを用いて, LLMが安定したツール呼び出し機能を実現する方法を提案する。
論文 参考訳(メタデータ) (2024-07-06T08:29:12Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ToolQA: A Dataset for LLM Question Answering with External Tools [14.408707186450899]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
彼らはまだ幻覚や弱い数値推論のような困難に悩まされている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
論文 参考訳(メタデータ) (2023-06-23T05:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。