Fugu-MT 論文翻訳(概要): Putting the Iterative Training of Decision Trees to the Test on a Real-World Robotic Task

論文の概要: Putting the Iterative Training of Decision Trees to the Test on a Real-World Robotic Task

arxiv url: http://arxiv.org/abs/2412.04974v1
Date: Fri, 06 Dec 2024 11:48:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:41.11274
Title: Putting the Iterative Training of Decision Trees to the Test on a Real-World Robotic Task
Title（参考訳）: 実世界ロボット作業における決定木の反復訓練
Authors: Raphael C. Engelhardt, Marcel J. Meinen, Moritz Lange, Laurenz Wiskott, Wolfgang Konen,
Abstract要約: 過去の研究では、強化学習タスクのエージェントとして決定木(DT)を訓練する方法を開発した。このアルゴリズムをロボットタスクの現実的な実装に初めて適用する。本研究は,DRLエージェントの性能に適合するDTを生成することにより,実世界のタスクに適用可能であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In previous research, we developed methods to train decision trees (DT) as agents for reinforcement learning tasks, based on deep reinforcement learning (DRL) networks. The samples from which the DTs are built, use the environment's state as features and the corresponding action as label. To solve the nontrivial task of selecting samples, which on one hand reflect the DRL agent's capabilities of choosing the right action but on the other hand also cover enough state space to generalize well, we developed an algorithm to iteratively train DTs. In this short paper, we apply this algorithm to a real-world implementation of a robotic task for the first time. Real-world tasks pose additional challenges compared to simulations, such as noise and delays. The task consists of a physical pendulum attached to a cart, which moves on a linear track. By movements to the left and to the right, the pendulum is to be swung in the upright position and balanced in the unstable equilibrium. Our results demonstrate the applicability of the algorithm to real-world tasks by generating a DT whose performance matches the performance of the DRL agent, while consisting of fewer parameters. This research could be a starting point for distilling DTs from DRL agents to obtain transparent, lightweight models for real-world reinforcement learning tasks.
Abstract（参考訳）: 従来の研究では, 深層強化学習(DRL)ネットワークに基づく強化学習タスクのエージェントとして, 決定木(DT)を訓練する方法を開発した。 DTが構築されたサンプルは、環境の状態を特徴として、対応するアクションをラベルとして使用します。一方,DRLエージェントが適切な動作を選択する能力を反映したサンプル選択の非自明な課題を解決するため,DTを反復的に訓練するアルゴリズムを開発した。本稿では,ロボットタスクの現実的な実装に対して,このアルゴリズムを初めて適用する。実世界のタスクは、ノイズや遅延といったシミュレーションと比較して、さらなる課題を引き起こす。作業は、カートに取り付けられた物理的な振り子で構成され、リニアトラック上を移動します。左右の動きによって、振り子は直立位置で振られ、不安定な平衡でバランスをとる。本研究は,DRLエージェントの性能に適合するDTを生成し,パラメータが少なく,実世界のタスクに適用可能であることを示す。この研究は、DRLエージェントからDTを蒸留し、現実世界の強化学習タスクのための透明で軽量なモデルを得るための出発点となるかもしれない。

関連論文リスト

Automated decision-making for dynamic task assignment at scale [0.0]
動的タスク割り当て問題(DTAP)は、リソースとタスクをリアルタイムでマッチングする問題である。本研究は,リアルタイムDTAPSのためのDRLに基づく意思決定支援システム(DSS)を提案する。提案したDSSは,プロセスマイニングにより実世界のログからパラメータを抽出したDTAPインスタンスを5つ評価する。
論文参考訳（メタデータ） (2025-04-28T16:08:35Z)
Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文参考訳（メタデータ） (2024-02-06T04:00:21Z)
Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文参考訳（メタデータ） (2024-01-16T16:28:32Z)
PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Abstract Demonstrations and Adaptive Exploration for Efficient and Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。 A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。 A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文参考訳（メタデータ） (2022-07-19T12:56:41Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
A Survey of Reinforcement Learning Algorithms for Dynamically Varying Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文参考訳（メタデータ） (2020-05-19T09:42:42Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。