論文の概要: Integrating External Tools with Large Language Models to Improve Accuracy
- arxiv url: http://arxiv.org/abs/2507.08034v1
- Date: Wed, 09 Jul 2025 04:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.110423
- Title: Integrating External Tools with Large Language Models to Improve Accuracy
- Title(参考訳): 大規模言語モデルと外部ツールの統合による精度向上
- Authors: Nripesh Niketan, Hadj Batatia,
- Abstract要約: 関連した文脈情報がないと、大きな言語モデル(LLM)は質の悪い応答を提供するか、幻覚を起こす傾向があることはよく知られている。
いくつかのイニシアチブは、LCMを外部ツールに統合して、正確性を改善するために最新のデータを提供することを提案している。
本稿では,学習環境における問合せに対するLLMの能力を高めるために,外部ツールを統合するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with improving querying large language models (LLMs). It is well-known that without relevant contextual information, LLMs can provide poor quality responses or tend to hallucinate. Several initiatives have proposed integrating LLMs with external tools to provide them with up-to-date data to improve accuracy. In this paper, we propose a framework to integrate external tools to enhance the capabilities of LLMs in answering queries in educational settings. Precisely, we develop a framework that allows accessing external APIs to request additional relevant information. Integrated tools can also provide computational capabilities such as calculators or calendars. The proposed framework has been evaluated using datasets from the Multi-Modal Language Understanding (MMLU) collection. The data consists of questions on mathematical and scientific reasoning. Results compared to state-of-the-art language models show that the proposed approach significantly improves performance. Our Athena framework achieves 83% accuracy in mathematical reasoning and 88% in scientific reasoning, substantially outperforming all tested models including GPT-4o, LLaMA-Large, Mistral-Large, Phi-Large, and GPT-3.5, with the best baseline model (LLaMA-Large) achieving only 67% and 79% respectively. These promising results open the way to creating complex computing ecosystems around LLMs to make their use more natural to support various tasks and activities.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) のクエリ改善について述べる。
関連する文脈情報がないと、LLMは質の悪い応答を提供するか、幻覚を起こす傾向があることはよく知られている。
いくつかのイニシアチブは、LCMを外部ツールに統合して、正確性を改善するために最新のデータを提供することを提案している。
本稿では,学習環境における問合せに対するLLMの能力を高めるために,外部ツールを統合するフレームワークを提案する。
正確には、外部APIにアクセスして関連する追加情報を要求できるフレームワークを開発する。
統合ツールはまた、電卓やカレンダーなどの計算機能を提供する。
提案するフレームワークは,MMLU(Multi-Modal Language Understanding)コレクションのデータセットを用いて評価されている。
データは、数学的および科学的推論に関する質問から成り立っている。
現状の言語モデルと比較すると,提案手法により性能が大幅に向上することが示された。
我々のAthenaフレームワークは数学的推論の精度83%、科学的推論の精度88%を達成し、GPT-4o, LLaMA-Large, Mistral-Large, Phi-Large, GPT-3.5を含む全ての試験モデルにおいて、それぞれ67%と79%で最高のベースラインモデル(LLaMA-Large)を達成している。
これらの有望な成果は、様々なタスクやアクティビティをサポートするために、LSMを囲む複雑なコンピューティングエコシステムを構築する方法を開く。
関連論文リスト
- MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation [0.0]
本稿では,自然言語入力を対応するAPI呼び出しに分類するために,Large Language Models (LLM) を統合する新しいシステムを提案する。
本システムでは,単純な入力による複雑なソフトウェア機能の実行,インタラクション効率の向上,ソフトウェア利用障壁の低減を実現している。
論文 参考訳(メタデータ) (2024-09-18T04:56:52Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - ToolQA: A Dataset for LLM Question Answering with External Tools [14.408707186450899]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
彼らはまだ幻覚や弱い数値推論のような困難に悩まされている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
論文 参考訳(メタデータ) (2023-06-23T05:43:28Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs [84.45284695156771]
API-Bankは、ツール強化された大規模言語モデルのための画期的なベンチマークである。
73のAPIツールからなる実行評価システムを開発した。
我々は、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。
論文 参考訳(メタデータ) (2023-04-14T14:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。