論文の概要: Heterogeneous Multi-Expert Reinforcement Learning for Long-Horizon Multi-Goal Tasks in Autonomous Forklifts
- arxiv url: http://arxiv.org/abs/2601.07304v1
- Date: Mon, 12 Jan 2026 08:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.280969
- Title: Heterogeneous Multi-Expert Reinforcement Learning for Long-Horizon Multi-Goal Tasks in Autonomous Forklifts
- Title(参考訳): 自律フォークリフトにおける長距離多目的タスクの不均一な多目的強化学習
- Authors: Yun Chen, Bowei Huang, Fan Guo, Kang Song,
- Abstract要約: 本稿では,自律フォークリフトに適した異種多目的強化学習(HMER)フレームワークを提案する。
HMERは、長期のタスクをセマンティックタスクプランナーによって制御される特殊なサブポリスに分解する。
本手法は,タスク成功率94.2%(ベースラインの62.5%)を達成し,動作時間を21.4%削減し,配置誤差を1.5cm以内で維持する。
- 参考スコア(独自算出の注目度): 5.215925647203835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous mobile manipulation in unstructured warehouses requires a balance between efficient large-scale navigation and high-precision object interaction. Traditional end-to-end learning approaches often struggle to handle the conflicting demands of these distinct phases. Navigation relies on robust decision-making over large spaces, while manipulation needs high sensitivity to fine local details. Forcing a single network to learn these different objectives simultaneously often causes optimization interference, where improving one task degrades the other. To address these limitations, we propose a Heterogeneous Multi-Expert Reinforcement Learning (HMER) framework tailored for autonomous forklifts. HMER decomposes long-horizon tasks into specialized sub-policies controlled by a Semantic Task Planner. This structure separates macro-level navigation from micro-level manipulation, allowing each expert to focus on its specific action space without interference. The planner coordinates the sequential execution of these experts, bridging the gap between task planning and continuous control. Furthermore, to solve the problem of sparse exploration, we introduce a Hybrid Imitation-Reinforcement Training Strategy. This method uses expert demonstrations to initialize the policy and Reinforcement Learning for fine-tuning. Experiments in Gazebo simulations show that HMER significantly outperforms sequential and end-to-end baselines. Our method achieves a task success rate of 94.2\% (compared to 62.5\% for baselines), reduces operation time by 21.4\%, and maintains placement error within 1.5 cm, validating its efficacy for precise material handling.
- Abstract(参考訳): 非構造倉庫における自律的な移動操作は、効率的な大規模ナビゲーションと高精度オブジェクトインタラクションのバランスを必要とする。
伝統的なエンドツーエンドの学習アプローチは、しばしばこれらの異なるフェーズの矛盾する要求に対処するのに苦労します。
ナビゲーションは大きな空間上での堅牢な意思決定に依存し、操作は局所的な詳細に対して高い感度を必要とする。
ひとつのネットワークにこれらの異なる目的を同時に学習させると、最適化の干渉が生じ、あるタスクの改善が他方を劣化させる。
これらの制約に対処するために,自律フォークリフトに適した不均一なマルチエキスパート強化学習(HMER)フレームワークを提案する。
HMERは、長期のタスクをセマンティックタスクプランナーによって制御される特殊なサブポリスに分解する。
この構造はマクロレベルのナビゲーションとマイクロレベルの操作を分離し、各専門家は干渉なしに特定のアクション空間に集中することができる。
プランナーはこれらの専門家のシーケンシャルな実行を調整し、タスク計画と継続的制御のギャップを埋める。
さらに,スパース探索の課題を解決するために,ハイブリッド・イミテーション・強化訓練戦略を導入する。
この方法は、専門家によるデモンストレーションを用いてポリシーを初期化し、微調整のための強化学習を行う。
ガゼボシミュレーションの実験では、HMERは逐次ベースラインとエンドツーエンドベースラインを著しく上回っている。
本手法は, 作業成功率94.2\%(ベースラインでは62.5\%)を達成し, 作業時間を21.4\%削減し, 1.5cm以内の配置誤差を維持し, その有効性を検証した。
関連論文リスト
- ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Investigating the Impact of Choice on Deep Reinforcement Learning for Space Controls [0.3441021278275805]
本稿では、エージェントが予め定義されたアクションリストから選択しなければならない個別のアクション空間を用いて分析する。
検査作業では、エージェントが物体を周航して表面上の点を検査し、ドッキングタスクでは、エージェントが別の宇宙船やドックの近くに移動しなければならない。
両方のタスクの共通の目的は、燃料の使用を最小化することであり、燃料を使用しないアクションを定期的に選択する動機となっている。
論文 参考訳(メタデータ) (2024-05-20T20:06:54Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。