論文の概要: ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents
- arxiv url: http://arxiv.org/abs/2602.02548v1
- Date: Fri, 30 Jan 2026 08:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.923495
- Title: ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents
- Title(参考訳): ToolTok: 効率的で汎用的なGUIエージェントのためのツールトークン化
- Authors: Xiaoce Wang, Guibin Zhang, Junzhe Li, Jinzhe Tu, Chun Li, Ming Li,
- Abstract要約: ToolTokはGUIエージェントのための多段階パスフィニングの新しいパラダイムである。
我々は,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。
トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの3つのタスクからなる,難易度の高いカリキュラムを構築した。
- 参考スコア(独自算出の注目度): 16.06309106596998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing GUI agent models relying on coordinate-based one-step visual grounding struggle with generalizing to varying input resolutions and aspect ratios. Alternatives introduce coordinate-free strategies yet suffer from learning under severe data scarcity. To address the limitations, we propose ToolTok, a novel paradigm of multi-step pathfinding for GUI agents, where operations are modeled as a sequence of progressive tool usage. Specifically, we devise tools aligned with human interaction habits and represent each tool using learnable token embeddings. To enable efficient embedding learning under limited supervision, ToolTok introduces a semantic anchoring mechanism that grounds each tool with semantically related concepts as natural inductive bias. To further enable a pre-trained large language model to progressively acquire tool semantics, we construct an easy-to-hard curriculum consisting of three tasks: token definition question-answering, pure text-guided tool selection, and simplified visual pathfinding. Extensive experiments on multiple benchmarks show that ToolTok achieves superior performance among models of comparable scale (4B) and remains competitive with a substantially larger model (235B). Notably, these results are obtained using less than 1% of the training data required by other post-training approaches. In addition, ToolTok demonstrates strong generalization across unseen scenarios. Our training & inference code is open-source at https://github.com/ZephinueCode/ToolTok.
- Abstract(参考訳): 既存のGUIエージェントモデルは、様々な入力解像度とアスペクト比を一般化するために座標ベースのワンステップの視覚的グラウンド闘争に依存している。
あるいは、重度のデータ不足下での学習に苦しむコーディネートフリー戦略を導入する方法もある。
本稿では,GUIエージェントの多段階パスフィニングの新たなパラダイムであるToolTokを提案する。
具体的には,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。
限られた監督下で効率的な埋め込み学習を可能にするため、ToolTokでは、各ツールに自然な帰納的バイアスとして意味論的に関連する概念を基礎付けるセマンティックアンカー機構を導入している。
さらに,事前学習された大規模言語モデルによるツールセマンティクスの段階的な獲得を可能にするために,トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの簡易化という3つのタスクからなる,難易度の高いカリキュラムを構築した。
複数のベンチマークでの大規模な実験により、ToolTokは同等のスケール (4B) のモデル間で優れたパフォーマンスを達成し、さらに大きなモデル (235B) と競合し続けることが示されている。
特に、これらの結果は、他のトレーニング後のアプローチで必要とされるトレーニングデータの1%未満で得られる。
さらにToolTokは、目に見えないシナリオにまたがる強力な一般化をデモしている。
トレーニングと推論のコードはhttps://github.com/ZephinueCode/ToolTok.orgで公開されている。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - Learning Generalizable Tool-use Skills through Trajectory Generation [13.879860388944214]
4つの異なる変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。
モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。
トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2023-09-29T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。