論文の概要: ToLeaP: Rethinking Development of Tool Learning with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11833v1
- Date: Sat, 17 May 2025 04:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.880906
- Title: ToLeaP: Rethinking Development of Tool Learning with Large Language Models
- Title(参考訳): ToLeaP: 大規模言語モデルによるツール学習の再考
- Authors: Haotian Chen, Zijun Song, Boye Niu, Ke Zhang, Litu Ou, Yaxi Lu, Zhong Zhang, Xin Cong, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 33のベンチマークを再現し,その中の7つのベンチマークをワンクリックで評価することで,41の言語モデル(LLM)のツール学習能力を検証した。
1) ベンチマークの限界は,(2) 自律学習の無視と欠如,(3) 一般化,(4) LLMの長期タスク解決能力の両方を引き起こす。
今後の進歩を支援するため,(1)現実世界のベンチマーク構築,(2)互換性に配慮した自律学習,(3)思考による合理的学習,(4)重要な手がかりの特定とリコールなど,潜在的方向性の探求に向けて一歩前進する。
- 参考スコア(独自算出の注目度): 74.55037451862742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool learning, which enables large language models (LLMs) to utilize external tools effectively, has garnered increasing attention for its potential to revolutionize productivity across industries. Despite rapid development in tool learning, key challenges and opportunities remain understudied, limiting deeper insights and future advancements. In this paper, we investigate the tool learning ability of 41 prevalent LLMs by reproducing 33 benchmarks and enabling one-click evaluation for seven of them, forming a Tool Learning Platform named ToLeaP. We also collect 21 out of 33 potential training datasets to facilitate future exploration. After analyzing over 3,000 bad cases of 41 LLMs based on ToLeaP, we identify four main critical challenges: (1) benchmark limitations induce both the neglect and lack of (2) autonomous learning, (3) generalization, and (4) long-horizon task-solving capabilities of LLMs. To aid future advancements, we take a step further toward exploring potential directions, namely (1) real-world benchmark construction, (2) compatibility-aware autonomous learning, (3) rationale learning by thinking, and (4) identifying and recalling key clues. The preliminary experiments demonstrate their effectiveness, highlighting the need for further research and exploration.
- Abstract(参考訳): 大規模言語モデル(LLM)が外部ツールを効果的に活用できるツール学習は、業界全体の生産性に革命をもたらす可能性があるとして、注目を集めている。
ツール学習の急速な発展にもかかわらず、重要な課題と機会は引き続き検討され、深い洞察と今後の進歩が制限される。
本稿では,33のベンチマークを再現し,その中の7つのベンチマークをワンクリックで評価し,ToLeaPというツール学習プラットフォームを構築することで,41のLLMのツール学習能力について検討する。
また、将来の探索を容易にするために、33の潜在的なトレーニングデータセットのうち21の収集も行います。
ToLeaP をベースとした 41 LLM の 3,000 以上の悪い事例を分析した後,(1) ベンチマークの限界は,(2) 自律学習の無視と欠如,(3) 一般化,(4) LLM の長期タスク解決能力の両方を誘導する。
今後の進歩を支援するため,(1)現実世界のベンチマーク構築,(2)互換性に配慮した自律学習,(3)思考による合理的学習,(4)重要な手がかりの特定とリコールなど,潜在的方向性の探求に向けて一歩前進する。
予備実験はその効果を実証し、さらなる調査と探査の必要性を強調した。
関連論文リスト
- Position: LLMs Can be Good Tutors in Foreign Language Education [87.88557755407815]
我々は、外国語教育(FLE)において、大きな言語モデル(LLM)が効果的な家庭教師として機能する可能性を主張する。
具体的には、(1)データエンハンサーとして、(2)学習教材の作成や学生シミュレーションとして、(2)タスク予測器として、学習者の評価や学習経路の最適化に、(3)エージェントとして、そして、パーソナライズされた包括的教育を可能にする3つの重要な役割を果たせる。
論文 参考訳(メタデータ) (2025-02-08T06:48:49Z) - Tool Unlearning for Tool-Augmented LLMs [14.755831733659699]
ツール強化された大規模言語モデル(LLM)は、クエリとレスポンスのペアのデータセットに基づいてトレーニングされることが多い。
ToolDeleteは、ツール拡張LDMからの未学習ツールの最初のアプローチである。
論文 参考訳(メタデータ) (2025-02-03T05:50:55Z) - Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。
この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文 参考訳(メタデータ) (2024-05-28T08:01:26Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。