論文の概要: Integrated Drill Boom Hole-Seeking Control via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.01836v1
- Date: Mon, 4 Dec 2023 12:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:13:30.230978
- Title: Integrated Drill Boom Hole-Seeking Control via Reinforcement Learning
- Title(参考訳): 強化学習による統合ドリルブームホールシーキング制御
- Authors: Haoqi Yan, Haoyuan Xu, Hongbo Gao, Fei Ma, Shengbo Eben Li, Jingliang
Duan
- Abstract要約: Intelligent drill boom hole-seekingは、掘削効率を高め、潜在的な安全リスクを軽減し、人間のオペレーターを救済するための有望な技術である。
既存のインテリジェントドリルブーム制御手法の多くは、逆運動学に基づく階層的な制御フレームワークに依存している。
本研究では,強化学習(RL)に基づく総合掘削ブーム制御手法を提案する。
- 参考スコア(独自算出の注目度): 15.842898556922831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent drill boom hole-seeking is a promising technology for enhancing
drilling efficiency, mitigating potential safety hazards, and relieving human
operators. Most existing intelligent drill boom control methods rely on a
hierarchical control framework based on inverse kinematics. However, these
methods are generally time-consuming due to the computational complexity of
inverse kinematics and the inefficiency of the sequential execution of multiple
joints. To tackle these challenges, this study proposes an integrated drill
boom control method based on Reinforcement Learning (RL). We develop an
integrated drill boom control framework that utilizes a parameterized policy to
directly generate control inputs for all joints at each time step, taking
advantage of joint posture and target hole information. By formulating the
hole-seeking task as a Markov decision process, contemporary mainstream RL
algorithms can be directly employed to learn a hole-seeking policy, thus
eliminating the need for inverse kinematics solutions and promoting cooperative
multi-joint control. To enhance the drilling accuracy throughout the entire
drilling process, we devise a state representation that combines
Denavit-Hartenberg joint information and preview hole-seeking discrepancy data.
Simulation results show that the proposed method significantly outperforms
traditional methods in terms of hole-seeking accuracy and time efficiency.
- Abstract(参考訳): Intelligent drill boom hole-seekingは、掘削効率を高め、潜在的な安全リスクを軽減し、人間のオペレーターを救済するための有望な技術である。
既存のインテリジェントドリルブーム制御手法のほとんどは、逆キネマティックスに基づく階層的制御フレームワークに依存している。
しかし、これらの手法は逆運動学の計算の複雑さと複数の関節の逐次実行の非効率のために一般的に時間を要する。
これらの課題に対処するために,Reinforcement Learning (RL) に基づくドリルブーム制御手法を提案する。
パラメタライズドポリシーを活用し, 関節の姿勢と目標ホール情報を活用し, 全関節に対する制御入力を時間ステップ毎に直接生成する統合ドリルブーム制御フレームワークを開発した。
ホール探索タスクをマルコフ決定プロセスとして定式化することにより、現代の主流RLアルゴリズムを直接使用してホール探索ポリシーを学習し、逆運動解の必要性を排除し、協調的な多関節制御を促進することができる。
掘削過程全体を通して掘削精度を高めるため,デナヴィト・ハルテンベルク連接情報とプレビューホール探索誤差データを組み合わせた状態表現を考案した。
シミュレーションの結果,提案手法はホール探索精度と時間効率において従来の手法よりも有意に優れていた。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Continuous Control With Ensemble Deep Deterministic Policy Gradients [3.3465375629622502]
我々は,OpenAI Gym MuJoCoの継続的制御タスクに対して,ED2(Ensemble Deep Deterministic Policy Gradients)が最先端の結果をもたらす方法を示す。
実用面では、ED2は概念的には単純で、コーディングが容易で、既存の深層強化学習ツールボックス以外の知識を必要としない。
論文 参考訳(メタデータ) (2021-11-30T13:28:13Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。