論文の概要: Prolonging Tool Life: Learning Skillful Use of General-purpose Tools through Lifespan-guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.17275v2
- Date: Fri, 25 Jul 2025 12:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.214532
- Title: Prolonging Tool Life: Learning Skillful Use of General-purpose Tools through Lifespan-guided Reinforcement Learning
- Title(参考訳): 長寿命ツールライフ:ライフスパン誘導強化学習による汎用ツールの高度活用の学習
- Authors: Po-Yen Wu, Cheng-Yu Kuo, Yuki Kadokawa, Takamitsu Matsubara,
- Abstract要約: 政策最適化において,ツール寿命を要素として組み込んだ強化学習フレームワークを導入する。
シミュレーションおよび実世界のツール利用タスク、例えばObject-MovingやDoor-Openingにまたがって、我々の手法を検証する。
学習されたポリシーはツール寿命を継続的に延長し(シミュレーションでは最大8.01倍)、実世界の設定に効果的に転送する。
- 参考スコア(独自算出の注目度): 7.110808102433564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In inaccessible environments with uncertain task demands, robots often rely on general-purpose tools that lack predefined usage strategies. These tools are not tailored for particular operations, making their longevity highly sensitive to how they are used. This creates a fundamental challenge: how can a robot learn a tool-use policy that both completes the task and prolongs the tool's lifespan? In this work, we address this challenge by introducing a reinforcement learning (RL) framework that incorporates tool lifespan as a factor during policy optimization. Our framework leverages Finite Element Analysis (FEA) and Miner's Rule to estimate Remaining Useful Life (RUL) based on accumulated stress, and integrates the RUL into the RL reward to guide policy learning toward lifespan-guided behavior. To handle the fact that RUL can only be estimated after task execution, we introduce an Adaptive Reward Normalization (ARN) mechanism that dynamically adjusts reward scaling based on estimated RULs, ensuring stable learning signals. We validate our method across simulated and real-world tool use tasks, including Object-Moving and Door-Opening with multiple general-purpose tools. The learned policies consistently prolong tool lifespan (up to 8.01x in simulation) and transfer effectively to real-world settings, demonstrating the practical value of learning lifespan-guided tool use strategies.
- Abstract(参考訳): 不確実なタスク要求のあるアクセス不能な環境では、ロボットは事前に定義された利用戦略に欠ける汎用ツールに依存することが多い。
これらのツールは特定の操作に向いていないため、その使用方法に非常に敏感である。
ロボットはどのようにしてタスクを完了し、ツールの寿命を延ばすツール利用ポリシーを学ぶことができるのか?
本稿では,政策最適化の要因としてツール寿命を組み込んだ強化学習(RL)フレームワークを導入することで,この問題に対処する。
本フレームワークは, 有限要素分析(FEA)とマイナーのルールを利用して, 蓄積ストレスに基づく残留有益生命(RUL)を推定し, RULをRL報酬に統合し, ライフスパン誘導行動に向けた政策学習を指導する。
タスク実行後にのみRULを推定できるという事実に対処するために、推定されたRULに基づいて報酬のスケーリングを動的に調整し、安定した学習信号を確保するアダプティブ・リワード正規化(ARN)機構を導入する。
複数の汎用ツールを用いたObject-MovingやDoor-Openingなど,シミュレーションおよび実世界のツール利用タスクに対して,本手法の有効性を検証する。
学習方針は一貫してツール寿命を延長し(シミュレーションでは最大8.01倍)、実世界の環境に効果的に移行し、学習ライフスパン誘導ツール利用戦略の実践的価値を示す。
関連論文リスト
- AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.20881816731553]
大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。
タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。
このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
論文 参考訳(メタデータ) (2025-06-11T17:59:18Z) - Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning [69.81148368677593]
ジェネラリストのエージェントは生涯を通じて継続的に学び、適応し、破滅的な忘れを最小化しながら効率的な転送を実現する必要がある。
従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。
本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。
我々のフレームワークは、トレーニング可能な最小限のパラメータと記憶を生かしながら、継続的な適応を通して成功率において、最先端の生涯学習方法よりも優れています。
論文 参考訳(メタデータ) (2025-06-06T11:13:04Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。
既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。
ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文 参考訳(メタデータ) (2024-10-09T07:14:45Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。