Fugu-MT 論文翻訳(概要): RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability

論文の概要: RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability

arxiv url: http://arxiv.org/abs/2309.00082v2
Date: Wed, 25 Oct 2023 07:42:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 19:49:35.825480
Title: RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability
Title（参考訳）: RePo: 後部予測の規則化による弾力性モデルに基づく強化学習
Authors: Chuning Zhu, Max Simchowitz, Siri Gadipudi, Abhishek Gupta
Abstract要約: 本稿では,視覚モデルに基づくRL法を提案する。我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
参考スコア（独自算出の注目度）: 25.943330238941602
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual model-based RL methods typically encode image observations into low-dimensional representations in a manner that does not eliminate redundant information. This leaves them susceptible to spurious variations -- changes in task-irrelevant components such as background distractors or lighting conditions. In this paper, we propose a visual model-based RL method that learns a latent representation resilient to such spurious variations. Our training objective encourages the representation to be maximally predictive of dynamics and reward, while constraining the information flow from the observation to the latent representation. We demonstrate that this objective significantly bolsters the resilience of visual model-based RL methods to visual distractors, allowing them to operate in dynamic environments. We then show that while the learned encoder is resilient to spirious variations, it is not invariant under significant distribution shift. To address this, we propose a simple reward-free alignment procedure that enables test time adaptation of the encoder. This allows for quick adaptation to widely differing environments without having to relearn the dynamics and policy. Our effort is a step towards making model-based RL a practical and useful tool for dynamic, diverse domains. We show its effectiveness in simulation benchmarks with significant spurious variations as well as a real-world egocentric navigation task with noisy TVs in the background. Videos and code at https://zchuning.github.io/repo-website/.
Abstract（参考訳）: 視覚モデルに基づくRL法は通常、冗長な情報を排除しない方法で画像観察を低次元表現に符号化する。これは、背景のイントラクタや照明条件といったタスク非関連コンポーネントの変更など、急激なバリエーションの影響を受けやすい。本稿では,このような変動に耐性のある潜在表現を学習する視覚モデルに基づくRL法を提案する。私たちのトレーニング目標は、観察から潜在表現への情報フローを制約しながら、表現を最大にダイナミクスと報酬を予測できることを奨励します。この目的が視覚モデルに基づくRL手法の視覚的障害に対する耐性を著しく促進し、動的環境下での動作を可能にすることを実証する。次に、学習したエンコーダはスピリチュアルな変動に耐性があるが、大きな分布シフトの下では不変ではないことを示す。そこで本研究では,エンコーダの試験時間適応を可能にする簡易な報酬不要アライメント手法を提案する。これにより、ダイナミックスとポリシーを再学習することなく、幅広い異なる環境に素早く適応することができる。我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。背景にノイズのあるテレビを備えた実世界のエゴセントリックなナビゲーションタスクと同様に,多彩な変動を伴うシミュレーションベンチマークにおいて,その効果を示す。ビデオとコードはhttps://zchuning.github.io/repo-website/。

関連論文リスト

Test-Time Canonicalization by Foundation Models for Robust Perception [33.00574202314593]
FOCALは、堅牢な知覚のためのテストタイム、データ駆動フレームワークである。再トレーニングやアーキテクチャの変更なしに、堅牢性を高める。実験では,CLIPおよびSAMの難易度変換における堅牢性の向上を実証した。
論文参考訳（メタデータ） (2025-07-14T15:14:38Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから描画された画像で視覚的強化学習タスクに変換する新しいベンチマークである。 SPGymの重要な革新は、調整可能なグリッドサイズとイメージプールによって表現学習の複雑さを正確に制御できることである。
論文参考訳（メタデータ） (2024-10-17T21:23:03Z)
SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文参考訳（メタデータ） (2024-10-11T14:03:31Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。動的環境のための新しいSLAMフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-18T09:35:48Z)
Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文参考訳（メタデータ） (2024-05-30T06:31:03Z)
Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文参考訳（メタデータ） (2024-03-28T15:22:29Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文参考訳（メタデータ） (2021-04-09T03:13:35Z)
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文参考訳（メタデータ） (2020-10-26T03:20:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。