論文の概要: ToLeaP: Rethinking Development of Tool Learning with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11833v1
- Date: Sat, 17 May 2025 04:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.880906
- Title: ToLeaP: Rethinking Development of Tool Learning with Large Language Models
- Title(参考訳): ToLeaP: 大規模言語モデルによるツール学習の再考
- Authors: Haotian Chen, Zijun Song, Boye Niu, Ke Zhang, Litu Ou, Yaxi Lu, Zhong Zhang, Xin Cong, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 33のベンチマークを再現し,その中の7つのベンチマークをワンクリックで評価することで,41の言語モデル(LLM)のツール学習能力を検証した。
1) ベンチマークの限界は,(2) 自律学習の無視と欠如,(3) 一般化,(4) LLMの長期タスク解決能力の両方を引き起こす。
今後の進歩を支援するため,(1)現実世界のベンチマーク構築,(2)互換性に配慮した自律学習,(3)思考による合理的学習,(4)重要な手がかりの特定とリコールなど,潜在的方向性の探求に向けて一歩前進する。
- 参考スコア(独自算出の注目度): 74.55037451862742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool learning, which enables large language models (LLMs) to utilize external tools effectively, has garnered increasing attention for its potential to revolutionize productivity across industries. Despite rapid development in tool learning, key challenges and opportunities remain understudied, limiting deeper insights and future advancements. In this paper, we investigate the tool learning ability of 41 prevalent LLMs by reproducing 33 benchmarks and enabling one-click evaluation for seven of them, forming a Tool Learning Platform named ToLeaP. We also collect 21 out of 33 potential training datasets to facilitate future exploration. After analyzing over 3,000 bad cases of 41 LLMs based on ToLeaP, we identify four main critical challenges: (1) benchmark limitations induce both the neglect and lack of (2) autonomous learning, (3) generalization, and (4) long-horizon task-solving capabilities of LLMs. To aid future advancements, we take a step further toward exploring potential directions, namely (1) real-world benchmark construction, (2) compatibility-aware autonomous learning, (3) rationale learning by thinking, and (4) identifying and recalling key clues. The preliminary experiments demonstrate their effectiveness, highlighting the need for further research and exploration.
- Abstract(参考訳): 大規模言語モデル(LLM)が外部ツールを効果的に活用できるツール学習は、業界全体の生産性に革命をもたらす可能性があるとして、注目を集めている。
ツール学習の急速な発展にもかかわらず、重要な課題と機会は引き続き検討され、深い洞察と今後の進歩が制限される。
本稿では,33のベンチマークを再現し,その中の7つのベンチマークをワンクリックで評価し,ToLeaPというツール学習プラットフォームを構築することで,41のLLMのツール学習能力について検討する。
また、将来の探索を容易にするために、33の潜在的なトレーニングデータセットのうち21の収集も行います。
ToLeaP をベースとした 41 LLM の 3,000 以上の悪い事例を分析した後,(1) ベンチマークの限界は,(2) 自律学習の無視と欠如,(3) 一般化,(4) LLM の長期タスク解決能力の両方を誘導する。
今後の進歩を支援するため,(1)現実世界のベンチマーク構築,(2)互換性に配慮した自律学習,(3)思考による合理的学習,(4)重要な手がかりの特定とリコールなど,潜在的方向性の探求に向けて一歩前進する。
予備実験はその効果を実証し、さらなる調査と探査の必要性を強調した。
関連論文リスト
- Have LLMs Made Active Learning Obsolete? Surveying the NLP Community [7.99984266570379]
教師付き学習は注釈付きデータに頼っている。
大規模言語モデル(LLM)は、アクティブラーニングの有効性を推し進めている。
我々はNLPコミュニティでオンライン調査を行い、データアノテーションの認知的関連性に関する無形の知見を収集する。
論文 参考訳(メタデータ) (2025-03-12T18:00:04Z) - Position: LLMs Can be Good Tutors in Foreign Language Education [87.88557755407815]
我々は、外国語教育(FLE)において、大きな言語モデル(LLM)が効果的な家庭教師として機能する可能性を主張する。
具体的には、(1)データエンハンサーとして、(2)学習教材の作成や学生シミュレーションとして、(2)タスク予測器として、学習者の評価や学習経路の最適化に、(3)エージェントとして、そして、パーソナライズされた包括的教育を可能にする3つの重要な役割を果たせる。
論文 参考訳(メタデータ) (2025-02-08T06:48:49Z) - Tool Unlearning for Tool-Augmented LLMs [14.755831733659699]
ツール強化された大規模言語モデル(LLM)は、クエリとレスポンスのペアのデータセットに基づいてトレーニングされることが多い。
ToolDeleteは、ツール拡張LDMからの未学習ツールの最初のアプローチである。
論文 参考訳(メタデータ) (2025-02-03T05:50:55Z) - Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching [67.11497198002165]
大規模言語モデル(LLM)は最新の情報の提供に苦慮することが多い。
既存のアプローチは、通常、新しいドキュメントのトレーニングを継続する。
効率的なヒューマンラーニングにおけるFeynman Techniqueの成功に感銘を受けて、セルフチューニングを紹介した。
論文 参考訳(メタデータ) (2024-06-10T14:42:20Z) - Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。
この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文 参考訳(メタデータ) (2024-05-28T08:01:26Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。