Fugu-MT 論文翻訳(概要): Re-Initialization Token Learning for Tool-Augmented Large Language Models

論文の概要: Re-Initialization Token Learning for Tool-Augmented Large Language Models

arxiv url: http://arxiv.org/abs/2506.14248v1
Date: Tue, 17 Jun 2025 07:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.370526
Title: Re-Initialization Token Learning for Tool-Augmented Large Language Models
Title（参考訳）: ツール強化大規模言語モデルのための再初期化学習
Authors: Chenghao Li, Liu Liu, Baosheng Yu, Jiayan Qiu, Yibing Zhan,
Abstract要約: 大規模言語モデルは例外的な性能を示してきたが、数値推論や計画生成といった複雑なタスクに苦戦している。本稿では,ツールトークンを既存の単語埋め込み空間と整合させる新しいトークン学習手法を提案する。本稿では,GSM8K-XL,FuncQA,KAMEL,VirtualHomeのデータセットを用いて,数値推論,知識に基づく質問応答,具体化計画生成などのタスクについて評価する。
参考スコア（独自算出の注目度）: 49.91503552002649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have demonstrated exceptional performance, yet struggle with complex tasks such as numerical reasoning, plan generation. Integrating external tools, such as calculators and databases, into large language models (LLMs) is crucial for enhancing problem-solving capabilities. Current methods assign a unique token to each tool, enabling LLMs to call tools through token prediction-similar to word generation. However, this approach fails to account for the relationship between tool and word tokens, limiting adaptability within pre-trained LLMs. To address this issue, we propose a novel token learning method that aligns tool tokens with the existing word embedding space from the perspective of initialization, thereby enhancing model performance. We begin by constructing prior token embeddings for each tool based on the tool's name or description, which are used to initialize and regularize the learnable tool token embeddings. This ensures the learned embeddings are well-aligned with the word token space, improving tool call accuracy. We evaluate the method on tasks such as numerical reasoning, knowledge-based question answering, and embodied plan generation using GSM8K-XL, FuncQA, KAMEL, and VirtualHome datasets. The results demonstrate clear improvements over recent baselines, including CoT, REACT, ICL, and ToolkenGPT, indicating that our approach effectively augments LLMs with tools through relevant tokens across diverse domains.
Abstract（参考訳）: 大規模言語モデルは例外的な性能を示してきたが、数値推論や計画生成といった複雑なタスクに苦戦している。計算機やデータベースなどの外部ツールを大規模言語モデル(LLM)に統合することは、問題解決能力の向上に不可欠である。現在の手法では各ツールにユニークなトークンを割り当て、LLMは単語生成に類似したトークン予測を通じてツールを呼び出すことができる。しかし、このアプローチはツールトークンとワードトークンの関係を考慮せず、事前訓練されたLLMの適応性を制限する。そこで本研究では,初期化の観点から,ツールトークンを既存の単語埋め込み空間と整合させる新しいトークン学習手法を提案する。まず、学習可能なツールトークンの埋め込みの初期化と正規化に使用されるツール名や記述に基づいて、各ツールに対する事前トークンの埋め込みを構築します。これにより、学習した埋め込みがワードトークン空間と適切に一致し、ツールコールの精度が向上する。本稿では,GSM8K-XL,FuncQA,KAMEL,VirtualHomeのデータセットを用いて,数値推論,知識に基づく質問応答,具体化計画生成などのタスクについて評価する。その結果、CoT、REACT、ICL、ToolkenGPTなどの最近のベースラインよりも明らかに改善され、多様なドメインにまたがる関連するトークンを通じて、当社のアプローチがLLMを効果的に強化することを示す。

関連論文リスト

ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。 ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。 ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文参考訳（メタデータ） (2024-10-04T13:52:32Z)
LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文参考訳（メタデータ） (2024-09-24T14:08:11Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文参考訳（メタデータ） (2024-02-26T16:11:03Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)
ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings [25.5476046472217]
大規模な言語モデルを外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にする。我々は、両者の利点を組み合わせた代替アプローチである$textbfToolkenGPT$を提案する。
論文参考訳（メタデータ） (2023-05-19T09:54:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。