Fugu-MT 論文翻訳(概要): Real-World Offline Reinforcement Learning from Vision Language Model Feedback

論文の概要: Real-World Offline Reinforcement Learning from Vision Language Model Feedback

arxiv url: http://arxiv.org/abs/2411.05273v1
Date: Fri, 08 Nov 2024 02:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.649961
Title: Real-World Offline Reinforcement Learning from Vision Language Model Feedback
Title（参考訳）: ビジョン言語モデルフィードバックによる実世界のオフライン強化学習
Authors: Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Zackory Erickson, David Held,
Abstract要約: オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
参考スコア（独自算出の注目度）: 19.494335952082466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning can enable policy learning from pre-collected, sub-optimal datasets without online interactions. This makes it ideal for real-world robots and safety-critical scenarios, where collecting online data or expert demonstrations is slow, costly, and risky. However, most existing offline RL works assume the dataset is already labeled with the task rewards, a process that often requires significant human effort, especially when ground-truth states are hard to ascertain (e.g., in the real-world). In this paper, we build on prior work, specifically RL-VLM-F, and propose a novel system that automatically generates reward labels for offline datasets using preference feedback from a vision-language model and a text description of the task. Our method then learns a policy using offline RL with the reward-labeled dataset. We demonstrate the system's applicability to a complex real-world robot-assisted dressing task, where we first learn a reward function using a vision-language model on a sub-optimal offline dataset, and then we use the learned reward to employ Implicit Q learning to develop an effective dressing policy. Our method also performs well in simulation tasks involving the manipulation of rigid and deformable objects, and significantly outperform baselines such as behavior cloning and inverse RL. In summary, we propose a new system that enables automatic reward labeling and policy learning from unlabeled, sub-optimal offline datasets.
Abstract（参考訳）: オフライン強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。これは、オンラインデータや専門家によるデモンストレーションの収集が遅く、コストがかかり、リスクが高い、現実世界のロボットや安全クリティカルなシナリオに理想的だ。しかし、既存のオフラインRLの作業の多くは、データセットにすでにタスク報酬がラベル付けされていると仮定している。本稿では,従来の作業,特にRL-VLM-Fに基づいて,視覚言語モデルからの好みフィードバックとタスクのテキスト記述を用いて,オフラインデータセットの報酬ラベルを自動的に生成するシステムを提案する。提案手法は,報酬ラベル付きデータセットを用いてオフラインRLを用いてポリシーを学習する。そこで,我々はまず,準最適オフラインデータセット上で視覚言語モデルを用いて報酬関数を学習し,その学習報酬を用いてImplicit Q学習を用いて効果的なドレッシングポリシーを開発する。また, 剛体および変形可能な物体の操作を含むシミュレーション作業でも良好に動作し, 挙動クローニングや逆RLなどのベースラインよりも優れていた。要約すると、未ラベルの準最適オフラインデータセットから自動報酬ラベル付けとポリシー学習を可能にする新しいシステムを提案する。

関連論文リスト

Policy Learning from Large Vision-Language Model Feedback without Reward Modeling [19.48826538310603]
本稿では,大規模視覚言語モデル(VLM)を活用し,エージェント訓練のためのガイダンス信号を提供するPLAREを紹介する。手動で設計した報酬関数に頼る代わりに、PLAREは視覚軌道セグメントのペアの優先ラベルに対してVLMをクエリする。このポリシーは、教師付きコントラスト的選好学習目標を用いて、これらの選好ラベルから直接訓練される。
論文参考訳（メタデータ） (2025-07-31T10:07:49Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文参考訳（メタデータ） (2023-10-24T17:46:12Z)
Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文参考訳（メタデータ） (2023-10-13T03:39:15Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T08:13:21Z)
Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文参考訳（メタデータ） (2023-01-03T23:52:16Z)
A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文参考訳（メタデータ） (2021-09-22T16:03:29Z)
Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文参考訳（メタデータ） (2021-07-08T17:01:32Z)
Representation Matters: Offline Pretraining for Sequential Decision Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文参考訳（メタデータ） (2021-02-11T02:38:12Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。