論文の概要: Learning a High-quality Robotic Wiping Policy Using Systematic Reward Analysis and Visual-Language Model Based Curriculum
- arxiv url: http://arxiv.org/abs/2502.12599v1
- Date: Tue, 18 Feb 2025 07:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:44.316292
- Title: Learning a High-quality Robotic Wiping Policy Using Systematic Reward Analysis and Visual-Language Model Based Curriculum
- Title(参考訳): 系統的リワード分析と視覚言語モデルに基づくカリキュラムを用いた高品質なロボットワイピング政策の学習
- Authors: Yihong Liu, Dongyeop Kang, Sehoon Ha,
- Abstract要約: 深層強化学習(Deep RL)は有望なアルゴリズムとして登場したが、しばしば繰り返し報酬工学に対する高い需要に悩まされる。
まず、高品質なワイピングと高速なタスク完了の両方を必要とする品質クリティカルなロボットワイピングの収束を分析する。
この問題を実現するために,新たな有界報酬定式化を提案する。
本手法は, 様々な曲率, 摩擦, ウェイポイントを有する表面において, 望ましいワイピングポリシーを導出できることを示す。
- 参考スコア(独自算出の注目度): 28.29784839837104
- License:
- Abstract: Autonomous robotic wiping is an important task in various industries, ranging from industrial manufacturing to sanitization in healthcare. Deep reinforcement learning (Deep RL) has emerged as a promising algorithm, however, it often suffers from a high demand for repetitive reward engineering. Instead of relying on manual tuning, we first analyze the convergence of quality-critical robotic wiping, which requires both high-quality wiping and fast task completion, to show the poor convergence of the problem and propose a new bounded reward formulation to make the problem feasible. Then, we further improve the learning process by proposing a novel visual-language model (VLM) based curriculum, which actively monitors the progress and suggests hyperparameter tuning. We demonstrate that the combined method can find a desirable wiping policy on surfaces with various curvatures, frictions, and waypoints, which cannot be learned with the baseline formulation. The demo of this project can be found at: https://sites.google.com/view/highqualitywiping.
- Abstract(参考訳): 自律型ロボットワイピングは、産業生産から医療の衛生化に至るまで、様々な産業において重要な課題である。
深層強化学習(Deep RL)は有望なアルゴリズムとして登場したが、しばしば繰り返し報酬工学に対する高い需要に悩まされる。
手動チューニングに頼る代わりに、まず、高品質なワイピングと高速タスク完了の両方を必要とする品質クリティカルなロボットワイピングの収束を解析し、問題の収束不良を示すとともに、問題の実現を可能にするための新たな有界報酬定式化を提案する。
そこで我々は,新たなビジュアル言語モデル(VLM)に基づくカリキュラムを提案し,その進捗を積極的に監視し,ハイパーパラメータチューニングを提案することにより,学習プロセスをさらに改善する。
本手法は, 様々な曲率, 摩擦, ウェイポイントを有する表面において, ベースライン定式化では学べない, 望ましいワイピングポリシーを導出できることを実証する。
プロジェクトのデモは、https://sites.google.com/view/highqualitywiping.comで見ることができる。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Online Learning of Wheel Odometry Correction for Mobile Robots with
Attention-based Neural Network [63.8376359764052]
現代のロボットプラットフォームは、人間の横で毎日運用するために、信頼性の高いローカライゼーションシステムを必要としている。
フィルタされた車輪と慣性オドメトリーに基づく単純なポーズ推定アルゴリズムは、急激なキネマティックな変化とホイールスリップの存在下で失敗することが多い。
本稿では,車輪形状補正のための革新的なオンライン学習手法を提案し,ロバストなマルチソースローカライゼーションシステムを提案する。
論文 参考訳(メタデータ) (2023-03-21T10:30:31Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Automated Robustness with Adversarial Training as a Post-Processing Step [5.55549775099824]
この研究は、堅牢なディープラーニングモデルを得るための単純なポストプロセッシングステップの有効性を探求する。
我々は,ニューラルネットワーク探索アルゴリズムから得られる最適化ネットワークアーキテクチャの処理後ステップとして,逆トレーニングを採用する。
論文 参考訳(メタデータ) (2021-09-06T15:17:08Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。