Fugu-MT 論文翻訳(概要): Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments

論文の概要: Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments

arxiv url: http://arxiv.org/abs/2310.08841v1
Date: Fri, 13 Oct 2023 03:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 14:32:22.828225
Title: Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments
Title（参考訳）: 手術ロボット環境におけるオフライン強化学習のための最適輸送の活用
Authors: Maryam Zare, Parham M. Kebria, Abbas Khosravi
Abstract要約: 我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
参考スコア（独自算出の注目度）: 4.2569494803130565
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most Reinforcement Learning (RL) methods are traditionally studied in an active learning setting, where agents directly interact with their environments, observe action outcomes, and learn through trial and error. However, allowing partially trained agents to interact with real physical systems poses significant challenges, including high costs, safety risks, and the need for constant supervision. Offline RL addresses these cost and safety concerns by leveraging existing datasets and reducing the need for resource-intensive real-time interactions. Nevertheless, a substantial challenge lies in the demand for these datasets to be meticulously annotated with rewards. In this paper, we introduce Optimal Transport Reward (OTR) labelling, an innovative algorithm designed to assign rewards to offline trajectories, using a small number of high-quality expert demonstrations. The core principle of OTR involves employing Optimal Transport (OT) to calculate an optimal alignment between an unlabeled trajectory from the dataset and an expert demonstration. This alignment yields a similarity measure that is effectively interpreted as a reward signal. An offline RL algorithm can then utilize these reward signals to learn a policy. This approach circumvents the need for handcrafted rewards, unlocking the potential to harness vast datasets for policy learning. Leveraging the SurRoL simulation platform tailored for surgical robot learning, we generate datasets and employ them to train policies using the OTR algorithm. By demonstrating the efficacy of OTR in a different domain, we emphasize its versatility and its potential to expedite RL deployment across a wide range of fields.
Abstract（参考訳）: ほとんどの強化学習(rl)法は、エージェントが直接環境と相互作用し、行動の結果を観察し、試行錯誤を通じて学習するアクティブラーニング環境で伝統的に研究されている。しかし、部分的に訓練されたエージェントが実際の物理的システムと対話できるようにすることは、高いコスト、安全性のリスク、継続的な監督の必要性など、重大な課題をもたらす。 Offline RLは、既存のデータセットを活用し、リソース集約的なリアルタイムインタラクションの必要性を減らすことで、これらのコストと安全性の問題に対処する。それでも、大きな課題は、これらのデータセットに報酬を慎重にアノテートする必要性にある。本稿では,オフライン軌道に報酬を割り当てる革新的なアルゴリズムであるOptimal Transport Reward (OTR)ラベリングについて,少数の高品質な専門家によるデモンストレーションを用いて紹介する。 OTRの中核となる原理は、データセットからラベルのない軌道と専門家によるデモンストレーションの間の最適なアライメントを計算するために、最適輸送(OT)を使用することである。このアライメントは、報酬信号として効果的に解釈される類似度尺度をもたらす。オフラインのRLアルゴリズムは、これらの報酬信号を使ってポリシーを学ぶことができる。このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。手術ロボット学習に適したSurRoLシミュレーションプラットフォームを活用して,データセットを生成し,OTRアルゴリズムを用いてポリシをトレーニングする。異なる領域におけるOTRの有効性を実証することにより、その汎用性と、広範囲にわたるRLの展開を高速化する可能性を強調した。

関連論文リスト

Policy Learning from Large Vision-Language Model Feedback without Reward Modeling [19.48826538310603]
本稿では,大規模視覚言語モデル(VLM)を活用し,エージェント訓練のためのガイダンス信号を提供するPLAREを紹介する。手動で設計した報酬関数に頼る代わりに、PLAREは視覚軌道セグメントのペアの優先ラベルに対してVLMをクエリする。このポリシーは、教師付きコントラスト的選好学習目標を用いて、これらの選好ラベルから直接訓練される。
論文参考訳（メタデータ） (2025-07-31T10:07:49Z)
Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文参考訳（メタデータ） (2024-11-08T02:12:34Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文参考訳（メタデータ） (2024-09-25T11:30:59Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文参考訳（メタデータ） (2023-12-16T22:09:50Z)
Optimal Transport for Offline Imitation Learning [31.218468923400373]
オフライン強化学習(RL)は、実環境と対話することなく、優れた意思決定ポリシーを学習するための有望なフレームワークである。オフライントラジェクトリに報酬を割り当てるアルゴリズムであるOptimal Transport Reward labeling (OTR)を導入する。単一実演によるOTRは、オフラインRLの性能と地道的な報酬とを一貫して一致させることができることを示す。
論文参考訳（メタデータ） (2023-03-24T12:45:42Z)
Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文参考訳（メタデータ） (2023-01-03T23:52:16Z)
Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文参考訳（メタデータ） (2021-07-08T17:01:32Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。