論文の概要: Accelerated Multi-objective Task Learning using Modified Q-learning Algorithm
- arxiv url: http://arxiv.org/abs/2409.01046v1
- Date: Mon, 2 Sep 2024 08:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:49:16.452544
- Title: Accelerated Multi-objective Task Learning using Modified Q-learning Algorithm
- Title(参考訳): 修正Q-ラーニングアルゴリズムを用いた多目的タスク学習の高速化
- Authors: Varun Prakash Rajamohan, Senthil Kumar Jagatheesaperumal,
- Abstract要約: 本稿では,Q-SDを用いたQ-learningと呼ばれるQ-ラーニングアルゴリズムの修正版を提案する。
ロボットマニピュレータ(エージェント)は、テーブルクリーニングのタスクにQ-SDアルゴリズムを適用する。
- 参考スコア(独自算出の注目度): 1.7265013728931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots find extensive applications in industry. In recent years, the influence of robots has also increased rapidly in domestic scenarios. The Q-learning algorithm aims to maximise the reward for reaching the goal. This paper proposes a modified version of the Q-learning algorithm, known as Q-learning with scaled distance metric (Q-SD). This algorithm enhances task learning and makes task completion more meaningful. A robotic manipulator (agent) applies the Q-SD algorithm to the task of table cleaning. Using Q-SD, the agent acquires the sequence of steps necessary to accomplish the task while minimising the manipulator's movement distance. We partition the table into grids of different dimensions. The first has a grid count of 3 times 3, and the second has a grid count of 4 times 4. Using the Q-SD algorithm, the maximum success obtained in these two environments was 86% and 59% respectively. Moreover, Compared to the conventional Q-learning algorithm, the drop in average distance moved by the agent in these two environments using the Q-SD algorithm was 8.61% and 6.7% respectively.
- Abstract(参考訳): ロボットは産業において広範囲の応用を見出す。
近年,家庭シナリオにおいてもロボットの影響が急速に拡大している。
Q-learningアルゴリズムは、目標を達成するための報酬を最大化することを目的としている。
本稿では,Q-SDを用いたQ-learningと呼ばれるQ-ラーニングアルゴリズムの修正版を提案する。
このアルゴリズムはタスク学習を強化し、タスク完了をより意味のあるものにする。
ロボットマニピュレータ(エージェント)は、テーブルクリーニングのタスクにQ-SDアルゴリズムを適用する。
Q-SDを用いて、エージェントは、マニピュレータの移動距離を最小化しながらタスクを達成するために必要なステップのシーケンスを取得する。
テーブルを異なる次元のグリッドに分割します。
第1のグリッド数は3倍、第2のグリッドは4倍の4倍である。
Q-SDアルゴリズムを用いて、これらの2つの環境で得られた最大成功率は、それぞれ86%と59%であった。
さらに,従来のQ-ラーニングアルゴリズムと比較して,これら2つの環境においてエージェントが移動した平均距離の減少は,それぞれ8.61%,6.7%であった。
関連論文リスト
- Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning [24.212773534280387]
近年の進歩としては、マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムがある。
MEMQアルゴリズムは、精度、複雑さ、堅牢性の点で、最先端のQ-ラーニングアルゴリズムよりも優れています。
本稿では,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-13T06:16:12Z) - Enhancing Robotic Manipulation: Harnessing the Power of Multi-Task
Reinforcement Learning and Single Life Reinforcement Learning in Meta-World [0.0]
この研究プロジェクトは、ロボットアームがメタワールド環境内で7つの異なるタスクを実行できるようにする。
トレーニングされたモデルは、シングルライフRLアルゴリズムの事前データのソースとして機能する。
アブレーション研究では、MT-QWALEが最終ゴール位置を隠した後でも、わずかに多くのステップでタスクを完了できることが示されている。
論文 参考訳(メタデータ) (2023-10-23T06:35:44Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Language Inference with Multi-head Automata through Reinforcement
Learning [0.0]
6つの異なる言語が強化学習問題として定式化されている。
エージェントは単純なマルチヘッドオートマトンとしてモデル化される。
遺伝的アルゴリズムは一般にQ学習アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-10-20T09:11:54Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z) - A Machine Learning Approach for Task and Resource Allocation in Mobile
Edge Computing Based Networks [108.57859531628264]
無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。
提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減することができる。
論文 参考訳(メタデータ) (2020-07-20T13:46:42Z) - Quality Diversity for Multi-task Optimization [4.061135251278186]
本稿では,マルチタスクMAP-Elitesと呼ばれるMAP-Elitesアルゴリズムの拡張を提案する。
擬似パラメータ化された平面アーム(10次元探索空間、5000タスク)と、異なる長さの脚を持つ擬似6脚ロボット(36次元探索空間、2000タスク)で評価する。
論文 参考訳(メタデータ) (2020-03-09T20:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。