論文の概要: Mix and Mask Actor-Critic Methods
- arxiv url: http://arxiv.org/abs/2106.13037v1
- Date: Thu, 24 Jun 2021 14:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 19:52:29.328960
- Title: Mix and Mask Actor-Critic Methods
- Title(参考訳): Mix and Mask Actor-Critic Methods
- Authors: Dom Huh
- Abstract要約: アクタークリティカルな手法のための共有特徴空間は、ポリシーと値関数で使用される一般化された潜在表現をキャプチャすることを目的としている。
混合マスク機構と分散スカラー化手法を導入することで,これらの課題に対処する新しい特徴共有フレームワークを提案する。
実験結果から,共有バックボーンを持つネットワークとネットワークを別々に使用する方法と比較して,性能が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shared feature spaces for actor-critic methods aims to capture generalized
latent representations to be used by the policy and value function with the
hopes for a more stable and sample-efficient optimization. However, such a
paradigm present a number of challenges in practice, as parameters generating a
shared representation must learn off two distinct objectives, resulting in
competing updates and learning perturbations. In this paper, we present a novel
feature-sharing framework to address these difficulties by introducing the mix
and mask mechanisms and the distributional scalarization technique. These
mechanisms behaves dynamically to couple and decouple connected latent features
variably between the policy and value function, while the distributional
scalarization standardizes the two objectives using a probabilistic standpoint.
From our experimental results, we demonstrate significant performance
improvements compared to alternative methods using separate networks and
networks with a shared backbone.
- Abstract(参考訳): アクター批判手法の共有特徴空間は、より安定でサンプル効率の良い最適化を期待して、ポリシーと値関数で使用される一般化潜在表現をキャプチャすることを目的としている。
しかし、そのようなパラダイムは、共有表現を生成するパラメータが2つの異なる目的を学習しなければならず、結果として競合する更新と摂動の学習をもたらすため、実際に多くの課題を呈する。
本稿では,混合マスク機構と分散スカラー化手法を導入することで,これらの課題に対処する新しい特徴共有フレームワークを提案する。
これらのメカニズムは、結合された潜在性特徴をポリシーと値関数の間で可変に結合して分離して動的に振る舞うが、分布的スカラー化は確率論的観点から2つの目的を標準化する。
実験結果から,共有バックボーンを持つ別々のネットワークとネットワークを用いた代替手法と比較して,性能が大幅に向上することを示した。
関連論文リスト
- Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning [14.01772209044574]
本稿では,新しい適応型部分パラメータ共有方式であるEmphKaleidoscopeを紹介する。
パラメータ共有の効率を犠牲にすることなく、これらのマスク間の相違を促進することで、ポリシーネットワーク間の多様性を促進する。
我々はKaleidoscopeを拡張してアクター批判アルゴリズムの文脈におけるアンサンブルを批判する。
論文 参考訳(メタデータ) (2024-10-11T05:22:54Z) - CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition [10.045163723630159]
CHASEはサンプル適応正規化法として機能し、濃度間分布の相違を緩和する。
このアプローチはシングルエンタリティのバックボーンにシームレスに適応し、マルチエンタリティシナリオにおけるパフォーマンスを向上します。
論文 参考訳(メタデータ) (2024-10-09T17:55:43Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。
複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。
提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文 参考訳(メタデータ) (2023-10-10T14:06:56Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Mixing Consistent Deep Clustering [3.5786621294068373]
良い潜在表現は、2つの潜在表現の線形を復号する際に意味的に混合出力を生成する。
本稿では,表現をリアルに見せるための混合一貫性深層クラスタリング手法を提案する。
提案手法は,クラスタリング性能を向上させるために,既存のオートエンコーダに付加可能であることを示す。
論文 参考訳(メタデータ) (2020-11-03T19:47:06Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。