論文の概要: Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments
- arxiv url: http://arxiv.org/abs/2310.08841v1
- Date: Fri, 13 Oct 2023 03:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:32:22.828225
- Title: Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments
- Title(参考訳): 手術ロボット環境におけるオフライン強化学習のための最適輸送の活用
- Authors: Maryam Zare, Parham M. Kebria, Abbas Khosravi
- Abstract要約: 我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
- 参考スコア(独自算出の注目度): 4.2569494803130565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most Reinforcement Learning (RL) methods are traditionally studied in an
active learning setting, where agents directly interact with their
environments, observe action outcomes, and learn through trial and error.
However, allowing partially trained agents to interact with real physical
systems poses significant challenges, including high costs, safety risks, and
the need for constant supervision. Offline RL addresses these cost and safety
concerns by leveraging existing datasets and reducing the need for
resource-intensive real-time interactions. Nevertheless, a substantial
challenge lies in the demand for these datasets to be meticulously annotated
with rewards. In this paper, we introduce Optimal Transport Reward (OTR)
labelling, an innovative algorithm designed to assign rewards to offline
trajectories, using a small number of high-quality expert demonstrations. The
core principle of OTR involves employing Optimal Transport (OT) to calculate an
optimal alignment between an unlabeled trajectory from the dataset and an
expert demonstration. This alignment yields a similarity measure that is
effectively interpreted as a reward signal. An offline RL algorithm can then
utilize these reward signals to learn a policy. This approach circumvents the
need for handcrafted rewards, unlocking the potential to harness vast datasets
for policy learning. Leveraging the SurRoL simulation platform tailored for
surgical robot learning, we generate datasets and employ them to train policies
using the OTR algorithm. By demonstrating the efficacy of OTR in a different
domain, we emphasize its versatility and its potential to expedite RL
deployment across a wide range of fields.
- Abstract(参考訳): ほとんどの強化学習(rl)法は、エージェントが直接環境と相互作用し、行動の結果を観察し、試行錯誤を通じて学習するアクティブラーニング環境で伝統的に研究されている。
しかし、部分的に訓練されたエージェントが実際の物理的システムと対話できるようにすることは、高いコスト、安全性のリスク、継続的な監督の必要性など、重大な課題をもたらす。
Offline RLは、既存のデータセットを活用し、リソース集約的なリアルタイムインタラクションの必要性を減らすことで、これらのコストと安全性の問題に対処する。
それでも、大きな課題は、これらのデータセットに報酬を慎重にアノテートする必要性にある。
本稿では,オフライン軌道に報酬を割り当てる革新的なアルゴリズムであるOptimal Transport Reward (OTR)ラベリングについて,少数の高品質な専門家によるデモンストレーションを用いて紹介する。
OTRの中核となる原理は、データセットからラベルのない軌道と専門家によるデモンストレーションの間の最適なアライメントを計算するために、最適輸送(OT)を使用することである。
このアライメントは、報酬信号として効果的に解釈される類似度尺度をもたらす。
オフラインのRLアルゴリズムは、これらの報酬信号を使ってポリシーを学ぶことができる。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
手術ロボット学習に適したSurRoLシミュレーションプラットフォームを活用して,データセットを生成し,OTRアルゴリズムを用いてポリシをトレーニングする。
異なる領域におけるOTRの有効性を実証することにより、その汎用性と、広範囲にわたるRLの展開を高速化する可能性を強調した。
関連論文リスト
- Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding [16.556934508295456]
オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。
安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションでトレーニングされており、オンライン環境にデプロイするとパフォーマンスが低下する。
本稿では,反復的オフラインRLのための新しいデータ収集・データ利用手法であるTrajectory-wise Exploration and Exploitation (TEE)を提案する。
論文 参考訳(メタデータ) (2024-02-23T05:20:23Z) - Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。
オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。
また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文 参考訳(メタデータ) (2023-12-16T22:09:50Z) - Optimal Transport for Offline Imitation Learning [31.218468923400373]
オフライン強化学習(RL)は、実環境と対話することなく、優れた意思決定ポリシーを学習するための有望なフレームワークである。
オフライントラジェクトリに報酬を割り当てるアルゴリズムであるOptimal Transport Reward labeling (OTR)を導入する。
単一実演によるOTRは、オフラインRLの性能と地道的な報酬とを一貫して一致させることができることを示す。
論文 参考訳(メタデータ) (2023-03-24T12:45:42Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。