論文の概要: Learning Generalizable Agents via Saliency-Guided Features Decorrelation
- arxiv url: http://arxiv.org/abs/2310.05086v2
- Date: Fri, 22 Dec 2023 09:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 18:08:24.135140
- Title: Learning Generalizable Agents via Saliency-Guided Features Decorrelation
- Title(参考訳): 塩分誘導特徴の相関による一般化エージェントの学習
- Authors: Sili Huang, Yanchao Sun, Jifeng Hu, Siyuan Guo, Hechang Chen, Yi
Chang, Lichao Sun, Bo Yang
- Abstract要約: 特徴と判断の相関をなくすために,サリエンシガイド機能デコレーションを提案する。
RFFは高次元画像における複雑な非線形相関を推定するために利用され、サリエンシマップは変化した特徴を識別するために設計されている。
サリエンシマップの指導のもと、SGFDはサンプル再重み付けを用いて、変化した特徴に関する推定相関を最小化する。
- 参考スコア(独自算出の注目度): 25.19044461705711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In visual-based Reinforcement Learning (RL), agents often struggle to
generalize well to environmental variations in the state space that were not
observed during training. The variations can arise in both task-irrelevant
features, such as background noise, and task-relevant features, such as robot
configurations, that are related to the optimal decisions. To achieve
generalization in both situations, agents are required to accurately understand
the impact of changed features on the decisions, i.e., establishing the true
associations between changed features and decisions in the policy model.
However, due to the inherent correlations among features in the state space,
the associations between features and decisions become entangled, making it
difficult for the policy to distinguish them. To this end, we propose
Saliency-Guided Features Decorrelation (SGFD) to eliminate these correlations
through sample reweighting. Concretely, SGFD consists of two core techniques:
Random Fourier Functions (RFF) and the saliency map. RFF is utilized to
estimate the complex non-linear correlations in high-dimensional images, while
the saliency map is designed to identify the changed features. Under the
guidance of the saliency map, SGFD employs sample reweighting to minimize the
estimated correlations related to changed features, thereby achieving
decorrelation in visual RL tasks. Our experimental results demonstrate that
SGFD can generalize well on a wide range of test environments and significantly
outperforms state-of-the-art methods in handling both task-irrelevant
variations and task-relevant variations.
- Abstract(参考訳): 視覚に基づく強化学習(Reinforcement Learning, RL)では、エージェントは訓練中に観察されなかった状態空間の環境変動によく適応するのに苦労する。
この変化は、背景雑音などのタスク非関連特徴と、最適決定に関連するロボット構成のようなタスク関連特徴の両方に生じる可能性がある。
両状況の一般化を実現するために,エージェントは変化した特徴が決定に与える影響,すなわち変化した特徴と政策モデルにおける決定との真の関連性を確立することを正確に理解する必要がある。
しかし、国家空間の特徴間の固有の相関関係のため、特徴と決定の関連が絡み合っており、政策がそれらの区別を困難にしている。
そこで本研究では,これらの相関を除去すべく,sgfd(saliency-guided features decorrelation)を提案する。
具体的には、SGFDはランダムフーリエ関数(RFF)とサリエンシマップの2つのコア技術から構成される。
RFFは高次元画像における複雑な非線形相関を推定するために利用され、サリエンシマップは変化した特徴を識別するために設計されている。
サリエンシマップの指導のもと、SGFDはサンプル再重み付けを用いて、変化した特徴に関する推定相関を最小化し、視覚的RLタスクにおけるデコリレーションを実現する。
実験の結果,sgfdは幅広いテスト環境において十分に一般化でき,タスクの無関係なバリエーションとタスク関連のバリエーションの両方を扱う場合,最先端の手法を著しく上回ることがわかった。
関連論文リスト
- OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences [16.828732283348817]
オフライン学習に基づく異常検出(OIL-AD)と呼ばれる教師なし手法を提案する。
OIL-ADは2つの抽出された行動特徴(行動最適性と順序関連)を用いて、意思決定シーケンスの異常を検出する。
実験の結果,OIL-ADはF1スコアを最大34.8%向上し,優れたオンライン異常検出性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-07T04:06:53Z) - Conditional Mutual Information for Disentangled Representations in
Reinforcement Learning [13.450394764597663]
強化学習環境は、特徴間の素早い相関でトレーニングデータを生成することができる。
アンタングル表現はロバスト性を改善することができるが、特徴間の相互情報を最小化する既存のアンタングル化技術は独立した特徴を必要とする。
相関特徴を持つ高次元観測の非交叉表現を学習するRLアルゴリズムの補助的タスクを提案する。
論文 参考訳(メタデータ) (2023-05-23T14:56:19Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person
Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。
本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文 参考訳(メタデータ) (2021-06-15T03:14:31Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Facial Action Unit Intensity Estimation via Semantic Correspondence
Learning with Dynamic Graph Convolution [27.48620879003556]
本稿では,特徴マップ間の意味的対応を確立することによって,AUの潜伏関係を自動的に学習する学習フレームワークを提案する。
熱マップ回帰に基づくネットワークでは、特徴写像はAU強度と位置に関連する豊富な意味情報を保存する。
これはAU強度レベルの共起関係を暗黙的に表す特徴チャネル間の相関をモデル化する動機となっている。
論文 参考訳(メタデータ) (2020-04-20T23:55:30Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。