論文の概要: Re-Initialization Token Learning for Tool-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2506.14248v1
- Date: Tue, 17 Jun 2025 07:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.370526
- Title: Re-Initialization Token Learning for Tool-Augmented Large Language Models
- Title(参考訳): ツール強化大規模言語モデルのための再初期化学習
- Authors: Chenghao Li, Liu Liu, Baosheng Yu, Jiayan Qiu, Yibing Zhan,
- Abstract要約: 大規模言語モデルは例外的な性能を示してきたが、数値推論や計画生成といった複雑なタスクに苦戦している。
本稿では,ツールトークンを既存の単語埋め込み空間と整合させる新しいトークン学習手法を提案する。
本稿では,GSM8K-XL,FuncQA,KAMEL,VirtualHomeのデータセットを用いて,数値推論,知識に基づく質問応答,具体化計画生成などのタスクについて評価する。
- 参考スコア(独自算出の注目度): 49.91503552002649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated exceptional performance, yet struggle with complex tasks such as numerical reasoning, plan generation. Integrating external tools, such as calculators and databases, into large language models (LLMs) is crucial for enhancing problem-solving capabilities. Current methods assign a unique token to each tool, enabling LLMs to call tools through token prediction-similar to word generation. However, this approach fails to account for the relationship between tool and word tokens, limiting adaptability within pre-trained LLMs. To address this issue, we propose a novel token learning method that aligns tool tokens with the existing word embedding space from the perspective of initialization, thereby enhancing model performance. We begin by constructing prior token embeddings for each tool based on the tool's name or description, which are used to initialize and regularize the learnable tool token embeddings. This ensures the learned embeddings are well-aligned with the word token space, improving tool call accuracy. We evaluate the method on tasks such as numerical reasoning, knowledge-based question answering, and embodied plan generation using GSM8K-XL, FuncQA, KAMEL, and VirtualHome datasets. The results demonstrate clear improvements over recent baselines, including CoT, REACT, ICL, and ToolkenGPT, indicating that our approach effectively augments LLMs with tools through relevant tokens across diverse domains.
- Abstract(参考訳): 大規模言語モデルは例外的な性能を示してきたが、数値推論や計画生成といった複雑なタスクに苦戦している。
計算機やデータベースなどの外部ツールを大規模言語モデル(LLM)に統合することは、問題解決能力の向上に不可欠である。
現在の手法では各ツールにユニークなトークンを割り当て、LLMは単語生成に類似したトークン予測を通じてツールを呼び出すことができる。
しかし、このアプローチはツールトークンとワードトークンの関係を考慮せず、事前訓練されたLLMの適応性を制限する。
そこで本研究では,初期化の観点から,ツールトークンを既存の単語埋め込み空間と整合させる新しいトークン学習手法を提案する。
まず、学習可能なツールトークンの埋め込みの初期化と正規化に使用されるツール名や記述に基づいて、各ツールに対する事前トークンの埋め込みを構築します。
これにより、学習した埋め込みがワードトークン空間と適切に一致し、ツールコールの精度が向上する。
本稿では,GSM8K-XL,FuncQA,KAMEL,VirtualHomeのデータセットを用いて,数値推論,知識に基づく質問応答,具体化計画生成などのタスクについて評価する。
その結果、CoT、REACT、ICL、ToolkenGPTなどの最近のベースラインよりも明らかに改善され、多様なドメインにまたがる関連するトークンを通じて、当社のアプローチがLLMを効果的に強化することを示す。
関連論文リスト
- LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via
Tool Embeddings [25.5476046472217]
大規模な言語モデルを外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。
最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にする。
我々は、両者の利点を組み合わせた代替アプローチである$textbfToolkenGPT$を提案する。
論文 参考訳(メタデータ) (2023-05-19T09:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。