Fugu-MT 論文翻訳(概要): ToolACE-R: Tool Learning with Adaptive Self-Refinement

論文の概要: ToolACE-R: Tool Learning with Adaptive Self-Refinement

arxiv url: http://arxiv.org/abs/2504.01400v1
Date: Wed, 02 Apr 2025 06:38:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.248788
Title: ToolACE-R: Tool Learning with Adaptive Self-Refinement
Title（参考訳）: ToolACE-R: アダプティブ・セルフリファインメントによるツール学習
Authors: Xingshan Zeng, Weiwen Liu, Xu Huang, Zezhong Wang, Lingzhi Wang, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruiming Tang, Qun Liu,
Abstract要約: ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
参考スコア（独自算出の注目度）: 84.69651852838794
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Tool learning, which allows Large Language Models (LLMs) to leverage external tools for solving complex user tasks, has emerged as a promising avenue for extending model capabilities. However, current approaches primarily focus on data synthesis for fine-tuning LLMs to invoke tools effectively, largely ignoring how to fully stimulate the potential of the model. In this paper, we propose ToolACE-R, a novel method that introduces adaptive self-refinement for tool invocations. Our approach features a model-aware iterative training procedure that progressively incorporates more training samples based on the model's evolving capabilities. Additionally, it allows LLMs to iteratively refine their tool calls, optimizing performance without requiring external feedback. To further enhance computational efficiency, we integrate an adaptive mechanism when scaling the inference time, enabling the model to autonomously determine when to stop the refinement process. We conduct extensive experiments across several benchmark datasets, showing that ToolACE-R achieves competitive performance compared to advanced API-based models, even without any refinement. Furthermore, its performance can be further improved efficiently through adaptive self-refinement. Our results demonstrate the effectiveness of the proposed method, which is compatible with base models of various sizes, offering a promising direction for more efficient tool learning.
Abstract（参考訳）: 大きな言語モデル(LLM)が複雑なユーザタスクを解決するために外部ツールを活用するツール学習が、モデル機能拡張のための有望な道として登場した。しかし、現在のアプローチは主に、モデルの可能性を完全に刺激する方法を無視したツールを効果的に呼び出すための微調整LDMのためのデータ合成に焦点を当てている。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,モデルが進化する能力に基づいて,さらに多くのトレーニングサンプルを段階的に組み込む,モデル対応反復的トレーニング手順を特徴とする。さらに、LCMはツールコールを反復的に洗練し、外部からのフィードバックを必要とせずにパフォーマンスを最適化できる。計算効率をさらに高めるため,推論時間をスケールする際の適応機構を統合し,改良プロセスの停止時期を自律的に決定する。いくつかのベンチマークデータセットにまたがって広範な実験を行い、ツールACE-Rは高度なAPIベースのモデルと比較して、改良がなくても競争力を発揮することを示した。さらに、適応的な自己調整により、その性能をより効率的に向上させることができる。提案手法は,様々なサイズのベースモデルと互換性があり,より効率的なツール学習のための有望な方向を提供する。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T02:32:03Z)
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文参考訳（メタデータ） (2025-05-12T12:48:30Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。 EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-31T10:04:35Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
"FRAME: Forward Recursive Adaptive Model Extraction-A Technique for Advance Feature Selection" [0.0]
本研究では,新しいハイブリッド手法であるフォワード再帰適応モデル抽出手法(FRAME)を提案する。 FRAMEは、フォワード選択と再帰的特徴除去を組み合わせて、さまざまなデータセットにおける機能選択を強化する。その結果、FRAMEは下流の機械学習評価指標に基づいて、常に優れた予測性能を提供することが示された。
論文参考訳（メタデータ） (2025-01-21T08:34:10Z)
iTool: Boosting Tool Use of Large Language Models via Iterative Reinforced Fine-Tuning [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その能力を強化するための有望なアプローチである。その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。本稿では,これらの課題を軽減するために,反復的に強化された微調整戦略を提案する。
論文参考訳（メタデータ） (2025-01-15T04:52:34Z)
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。動的精錬ツールの文書化を目的とした新しいフレームワーク DRAFT を提案する。この方法論は、3つの異なる学習フェーズからなる革新的な試行錯誤アプローチに基づいている。
論文参考訳（メタデータ） (2024-10-10T17:58:44Z)
Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文参考訳（メタデータ） (2024-10-09T07:14:45Z)
LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文参考訳（メタデータ） (2024-09-24T14:08:11Z)
CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-20T04:06:28Z)
Learning to Unlearn for Robust Machine Unlearning [6.488418950340473]
学習過程を最適化する新しいLTU(Learning-to-Unlearn)フレームワークを提案する。 LTUは、モデルが一般化可能な知識を効果的に保存することを容易にするメタ最適化スキームを含んでいる。また、記憶と忘れのための最適化トラジェクトリを整列するグラディエント調和戦略も導入する。
論文参考訳（メタデータ） (2024-07-15T07:36:00Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文参考訳（メタデータ） (2024-02-12T12:30:42Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。