論文の概要: MoVie: Visual Model-Based Policy Adaptation for View Generalization
- arxiv url: http://arxiv.org/abs/2307.00972v1
- Date: Mon, 3 Jul 2023 12:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:09:08.651582
- Title: MoVie: Visual Model-Based Policy Adaptation for View Generalization
- Title(参考訳): MoVie:ビューの一般化のためのビジュアルモデルベースのポリシー適応
- Authors: Sizhe Yang, Yanjie Ze, Huazhe Xu
- Abstract要約: 限られた視点で訓練された視覚強化学習(RL)エージェントは、学習能力の一般化において大きな課題に直面している。
本研究では,この基本的な問題を4つの異なる,非常に困難なシナリオに体系的に分類する。
我々は、$textbfVie$wの一般化のために、ビジュアルな$textbfMo$delベースのポリシーをうまく適用するための、単純で効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.3175002391723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Reinforcement Learning (RL) agents trained on limited views face
significant challenges in generalizing their learned abilities to unseen views.
This inherent difficulty is known as the problem of $\textit{view
generalization}$. In this work, we systematically categorize this fundamental
problem into four distinct and highly challenging scenarios that closely
resemble real-world situations. Subsequently, we propose a straightforward yet
effective approach to enable successful adaptation of visual
$\textbf{Mo}$del-based policies for $\textbf{Vie}$w generalization
($\textbf{MoVie}$) during test time, without any need for explicit reward
signals and any modification during training time. Our method demonstrates
substantial advancements across all four scenarios encompassing a total of
$\textbf{18}$ tasks sourced from DMControl, xArm, and Adroit, with a relative
improvement of $\mathbf{33}$%, $\mathbf{86}$%, and $\mathbf{152}$%
respectively. The superior results highlight the immense potential of our
approach for real-world robotics applications. Videos are available at
https://yangsizhe.github.io/MoVie/ .
- Abstract(参考訳): 限られた視点で訓練された視覚強化学習(RL)エージェントは、学習能力の一般化において大きな課題に直面している。
この固有の困難さは、$\textit{view generalization}$ の問題として知られている。
本研究では,この基本的な問題を,現実の状況によく似た4つの異なる,非常に困難なシナリオに体系的に分類する。
次に、視覚的$\textbf{Mo}$del-based Policy for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) をテスト時間中に、明示的な報酬信号やトレーニング時間中の変更を必要とせずに、容易にかつ効果的に適応できるアプローチを提案する。
提案手法は,dmcontrol,xarm,adroitから供給される合計$\textbf{18}$タスクを含む4つのシナリオにおいて,それぞれ$\mathbf{33}$%,$\mathbf{86}$%,$\mathbf{152}$%の相対的改善を示す。
優れた結果は、現実世界のロボットアプリケーションに対する我々のアプローチの膨大な可能性を浮き彫りにしている。
ビデオはhttps://yangsizhe.github.io/MoVie/で公開されている。
関連論文リスト
- Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示した
しかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。
オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。
提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Learning to Solve the Constrained Most Probable Explanation Task in Probabilistic Graphical Models [10.603378323312809]
我々は、制約された最も予測可能な説明(CMPE)問題に対して、ほぼ最適解を出力することを学ぶディープニューラルネットワークを訓練する。
提案手法の特性を解析し,その有効性をいくつかのベンチマーク問題で実験的に実証する。
論文 参考訳(メタデータ) (2024-04-17T17:55:17Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。
我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T19:53:58Z) - H-InDex: Visual Reinforcement Learning with Hand-Informed
Representations for Dexterous Manipulation [24.00965190311669]
本フレームワークは, (i) 人手ポーズ推定による事前学習表現, (ii) 自己教師付きキーポイント検出によるオフライン適応表現, (iii) 指数移動平均BatchNormによる強化学習の3段階からなる。
H-InDexは強力なベースライン法や近年の運動制御の視覚基盤モデルを大きく超えている。
論文 参考訳(メタデータ) (2023-10-02T17:59:03Z) - Explore to Generalize in Zero-Shot RL [38.43215023828472]
本研究では,強化学習におけるゼロショットの一般化について検討する。
提案手法は,Mazeタスクが83%,Heistが74%,トレーニングレベルが200ドルという,極めて効果的な一般化を実現したProcGen課題のタスクの最先端技術であることを示す。
論文 参考訳(メタデータ) (2023-06-05T17:49:43Z) - Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。
エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。
我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文 参考訳(メタデータ) (2022-10-05T22:53:46Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies [87.78260740602674]
総合化は強化学習(RL)の長年にわたる課題である。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバスト表現学習をポリシー最適化から切り離す,新たな自己経験的クローニング手法であるSECANTを提案する。
論文 参考訳(メタデータ) (2021-06-17T17:28:18Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。