論文の概要: VIBR: Learning View-Invariant Value Functions for Robust Visual Control
- arxiv url: http://arxiv.org/abs/2306.08537v1
- Date: Wed, 14 Jun 2023 14:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:49:59.177421
- Title: VIBR: Learning View-Invariant Value Functions for Robust Visual Control
- Title(参考訳): VIBR:ロバスト視覚制御のためのビュー不変値関数の学習
- Authors: Tom Dupuis, Jaonary Rabarisoa, Quoc-Cuong Pham and David Filliat
- Abstract要約: VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.2307366446033945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end reinforcement learning on images showed significant progress in
the recent years. Data-based approach leverage data augmentation and domain
randomization while representation learning methods use auxiliary losses to
learn task-relevant features. Yet, reinforcement still struggles in visually
diverse environments full of distractions and spurious noise. In this work, we
tackle the problem of robust visual control at its core and present VIBR
(View-Invariant Bellman Residuals), a method that combines multi-view training
and invariant prediction to reduce out-of-distribution (OOD) generalization gap
for RL based visuomotor control. Our model-free approach improve baselines
performances without the need of additional representation learning objectives
and with limited additional computational cost. We show that VIBR outperforms
existing methods on complex visuo-motor control environment with high visual
perturbation. Our approach achieves state-of the-art results on the Distracting
Control Suite benchmark, a challenging benchmark still not solved by current
methods, where we evaluate the robustness to a number of visual perturbators,
as well as OOD generalization and extrapolation capabilities.
- Abstract(参考訳): 画像におけるエンドツーエンドの強化学習は近年大きな進歩を見せている。
データベースアプローチはデータ拡張とドメインのランダム化を活用し、表現学習手法は補助損失を使用してタスク関連の特徴を学習する。
しかし、強化はいまだに視覚的に多様で、混乱と刺激的な騒音に満ちた環境に苦しむ。
本研究では,多視点学習と不変予測を組み合わせることで,RLに基づくビジュモータ制御におけるアウト・オブ・ディストリビューション(OOD)の一般化ギャップを低減する手法であるVIBR(View-Invariant Bellman Residuals)を提案する。
モデルフリーアプローチでは,表現学習の目的を付加する必要がなく,計算コストが制限されることなく,ベースライン性能が向上する。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
提案手法は,多くの視覚摂動器の頑健性,OODの一般化,外挿機能を評価するため,現状の手法では未解決であるDistracting Control Suiteベンチマークの最先端結果を実現する。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。
これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。
背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文 参考訳(メタデータ) (2021-02-26T02:24:36Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Measuring Visual Generalization in Continuous Control from Pixels [12.598584313005407]
自己教師付き学習とデータ拡張は、状態と画像に基づく強化学習エージェントのパフォーマンスギャップを著しく減らした。
本稿では,既存の連続制御領域にグラフィカルな多様性を加えることで,エージェントの視覚的一般化をテストするベンチマークを提案する。
我々は、データ拡張技術が自己教師付き学習手法より優れており、より重要な画像変換がより視覚的な一般化をもたらすことを発見した。
論文 参考訳(メタデータ) (2020-10-13T23:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。