論文の概要: It's LIT! Reliability-Optimized LLMs with Inspectable Tools
- arxiv url: http://arxiv.org/abs/2511.14903v1
- Date: Tue, 18 Nov 2025 20:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.526102
- Title: It's LIT! Reliability-Optimized LLMs with Inspectable Tools
- Title(参考訳): インスペクタブルツールを用いた信頼性最適化LDM
- Authors: Ruixin Zhang, Jon Donnelly, Zhicheng Guo, Ghazal Khalighinejad, Haiyang Huang, Alina Jade Barnett, Cynthia Rudin,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
LLMはしばしば不透明な推論プロセスに従い、高い領域におけるそれらの有用性を制限する。
本稿では,既存のLCMのツールコール機能をベースに構築されたフレームワークについて述べる。
- 参考スコア(独自算出の注目度): 33.53798264548128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities across various domains. The ability to call external tools further expands their capability to handle real-world tasks. However, LLMs often follow an opaque reasoning process, which limits their usefulness in high-stakes domains where solutions need to be trustworthy to end users. LLMs can choose solutions that are unreliable and difficult to troubleshoot, even if better options are available. We address this issue by forcing LLMs to use external -- more reliable -- tools to solve problems when possible. We present a framework built on the tool-calling capabilities of existing LLMs to enable them to select the most reliable and easy-to-troubleshoot solution path, which may involve multiple sequential tool calls. We refer to this framework as LIT (LLMs with Inspectable Tools). In order to support LIT, we introduce a new and challenging benchmark dataset of 1,300 questions and a customizable set of reliability cost functions associated with a collection of specialized tools. These cost functions summarize how reliable each tool is and how easy it is to troubleshoot. For instance, a calculator is reliable across domains, whereas a linear prediction model is not reliable if there is distribution shift, but it is easy to troubleshoot. A tool that constructs a random forest is neither reliable nor easy to troubleshoot. These tools interact with the Harvard USPTO Patent Dataset and a new dataset of NeurIPS 2023 papers to solve mathematical, coding, and modeling problems of varying difficulty levels. We demonstrate that LLMs can achieve more reliable and informed problem-solving while maintaining task performance using our framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
外部ツールを呼び出す能力は、現実世界のタスクを処理する能力をさらに拡張します。
しかし、LSMは不透明な推論プロセスに追従することが多く、エンドユーザーにはソリューションを信頼できるものにする必要があるハイテイクなドメインにおいて、その有用性を制限している。
LLMは、たとえより良い選択肢が利用可能であっても、信頼性が低くトラブルシュートが難しいソリューションを選択することができる。
この問題に対処するために、LLMには、可能な限り解決するために外部(より信頼性の高い)ツールを使わざるを得ません。
本稿では,既存のLCMのツールコール機能をベースに構築されたフレームワークについて述べる。
このフレームワークを LIT (LLMs with Inspectable Tools) と呼ぶ。
LITをサポートするために、我々は1,300の質問からなる新しい、挑戦的なベンチマークデータセットと、専門ツールのコレクションに関連する信頼性コスト関数セットを導入する。
これらのコスト関数は、各ツールの信頼性とトラブルシューティングの容易さをまとめたものです。
例えば、電卓は領域間で信頼性があるが、線形予測モデルは分布シフトがある場合信頼できないが、トラブルシュートは容易である。
ランダムな森林を構築するツールは、信頼性もトラブルシュートも容易ではない。
これらのツールは、Harvard USPTO Patent DatasetとNeurIPS 2023論文の新しいデータセットと相互作用し、さまざまな難易度の数学的、コーディング、モデリングの問題を解決する。
LLMは、我々のフレームワークを使用してタスクパフォーマンスを維持しながら、より信頼性が高く、情報に富んだ問題解決を実現することができることを実証する。
関連論文リスト
- SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments [2.071720670587172]
我々は,ツール発見と実行のためのOPACAフレームワークをベースとした,特殊な対話型AIインターフェースであるSAGEを紹介する。
エージェントの概念を駆使し,様々な複雑さの手法を推し進めるタスク解決戦略を多数実装する。
結果は有望であり、異なるタスク解決戦略の異なる長所と短所を強調している。
論文 参考訳(メタデータ) (2026-01-12T15:49:47Z) - ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。
我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。
LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文 参考訳(メタデータ) (2025-07-03T19:19:44Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Achieving Tool Calling Functionality in LLMs Using Only Prompt Engineering Without Fine-Tuning [0.0]
現在、ローカルにデプロイされたオープンソースの大規模言語モデル(LLM)と、いくつかの商用モデルインターフェースは、安定したツール呼び出し機能をサポートしていない。
本稿では, プロンプトエンジニアリングといくつかの巧妙なコード設計のみを用いて, LLMが安定したツール呼び出し機能を実現する方法を提案する。
論文 参考訳(メタデータ) (2024-07-06T08:29:12Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ToolQA: A Dataset for LLM Question Answering with External Tools [14.408707186450899]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
彼らはまだ幻覚や弱い数値推論のような困難に悩まされている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
論文 参考訳(メタデータ) (2023-06-23T05:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。