Fugu-MT 論文翻訳(概要): Equivariant Reinforcement Learning under Partial Observability

論文の概要: Equivariant Reinforcement Learning under Partial Observability

arxiv url: http://arxiv.org/abs/2408.14336v1
Date: Mon, 26 Aug 2024 15:07:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 13:31:39.323071
Title: Equivariant Reinforcement Learning under Partial Observability
Title（参考訳）: 部分観測可能性を考慮した等変強化学習
Authors: Hai Nguyen, Andrea Baisero, David Klee, Dian Wang, Robert Platt, Christopher Amato,
Abstract要約: 本稿では,対称性が効果的な学習に有用な帰納的バイアスとなる部分観測可能な領域を同定する。我々のアクター批判型強化学習エージェントは、過去におけるソリューションを、関連するシナリオで再利用することができる。
参考スコア（独自算出の注目度）: 18.87759041528553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incorporating inductive biases is a promising approach for tackling challenging robot learning domains with sample-efficient solutions. This paper identifies partially observable domains where symmetries can be a useful inductive bias for efficient learning. Specifically, by encoding the equivariance regarding specific group symmetries into the neural networks, our actor-critic reinforcement learning agents can reuse solutions in the past for related scenarios. Consequently, our equivariant agents outperform non-equivariant approaches significantly in terms of sample efficiency and final performance, demonstrated through experiments on a range of robotic tasks in simulation and real hardware.
Abstract（参考訳）: 帰納バイアスを組み込むことは、サンプル効率のよいソリューションで挑戦的なロボット学習領域に取り組むための有望なアプローチである。本稿では,対称性が効果的な学習に有用な帰納的バイアスとなる部分観測可能な領域を同定する。具体的には、特定のグループ対称性に関する同値をニューラルネットワークに符号化することにより、アクター・クリティカルな強化学習エージェントは、過去のソリューションを、関連するシナリオで再利用することができる。その結果、同変エージェントはサンプル効率と最終性能の点で非同変アプローチを著しく上回り、シミュレーションや実ハードウェアにおける様々なロボットタスクの実験を通して実証した。

関連論文リスト

Approximate Equivariance in Reinforcement Learning [35.04248486334824]
等変ニューラルネットワークは強化学習において大きな成功を収めている。多くの問題において、近似対称性のみが存在しており、これは正確な対称性を不適切なものにしている。我々は、強化学習におけるほぼ同変のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-06T19:44:46Z)
Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning [5.69473229553916]
本稿では,特定のニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。等変アンサンブルと正則化がサンプル効率と性能にどのような影響を与えるかを示す。
論文参考訳（メタデータ） (2024-03-19T16:01:25Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
Learning invariant representations of time-homogeneous stochastic dynamical systems [27.127773672738535]
我々は,そのダイナミクスを忠実に捉えた状態の表現を学習する問題を研究する。これは、転送演算子やシステムのジェネレータを学ぶのに役立ちます。ニューラルネットワークに対する最適化問題として,優れた表現の探索が可能であることを示す。
論文参考訳（メタデータ） (2023-07-19T11:32:24Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
The Surprising Effectiveness of Equivariant Models in Domains with Latent Symmetry [6.716931832076628]
領域対称性と正確に一致しない対称性制約を課すことは、環境における真の対称性を学ぶのに非常に有用であることを示す。ロボット操作・制御問題における教師付き学習と強化学習の両方において,同変モデルが潜在対称性を持つ領域における非同変手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2022-11-16T21:51:55Z)
Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文参考訳（メタデータ） (2022-06-23T12:06:54Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Equivariance Allows Handling Multiple Nuisance Variables When Analyzing Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文参考訳（メタデータ） (2022-03-29T04:54:06Z)
Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in Amateur Data in Imitation Learning [3.145455301228175]
行動学(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。このアルゴリズムが、未知の重みを持つデータセットに対して、堅牢なBC模倣子を生成するためにどのように使用できるかを実証的に示す。
論文参考訳（メタデータ） (2021-08-02T04:30:41Z)
Exploring Complementary Strengths of Invariant and Equivariant Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文参考訳（メタデータ） (2021-03-01T21:14:33Z)
Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文参考訳（メタデータ） (2020-07-01T02:38:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。