論文の概要: Structural Similarity for Improved Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.13813v1
- Date: Wed, 27 Jul 2022 22:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:39:41.330578
- Title: Structural Similarity for Improved Transfer in Reinforcement Learning
- Title(参考訳): 強化学習における構造的類似性の改善
- Authors: C. Chace Ashcraft, Benjamin Stoler, Chigozie Ewulum, Susama Agarwala
- Abstract要約: 本稿では,以前に開発された2つの有限MDPにおける状態の類似度を推定するアルゴリズムを提案する。
距離測定値の特性を満足し,Q-Learningエージェントの転送性能向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning is an increasingly common approach for developing
performant RL agents. However, it is not well understood how to define the
relationship between the source and target tasks, and how this relationship
contributes to successful transfer. We present an algorithm called Structural
Similarity for Two MDPS, or SS2, that calculates a state similarity measure for
states in two finite MDPs based on previously developed bisimulation metrics,
and show that the measure satisfies properties of a distance metric. Then,
through empirical results with GridWorld navigation tasks, we provide evidence
that the distance measure can be used to improve transfer performance for
Q-Learning agents over previous implementations.
- Abstract(参考訳): トランスファーラーニングは、パフォーマンスRLエージェントの開発において、ますます一般的なアプローチである。
しかし、ソースとターゲットタスクの関係を定義する方法や、この関係が転送の成功にどのように貢献するかはよく理解されていない。
2つのMDPSのための構造的類似性(SS2)と呼ばれるアルゴリズムを提案し、従来開発された2つの有限MDPの状態の類似度を計算し、距離メートル法の特性を満たすことを示す。
次に,GridWorldナビゲーションタスクを用いた実験結果から,従来の実装よりもQラーニングエージェントの転送性能を向上させるために,距離測定が有効であることを示す。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Towards Estimating Transferability using Hard Subsets [25.86053764521497]
HASTEは、ターゲットデータのより厳しいサブセットのみを用いて、ソースモデルの特定のターゲットタスクへの転送可能性を推定する新しい戦略である。
HASTEは既存の転送可能性測定値と組み合わせて信頼性を向上させることができることを示す。
複数のソースモデルアーキテクチャ、ターゲットデータセット、トランスファー学習タスクにまたがる実験結果から、HASTEの修正されたメトリクスは、一貫して、あるいは、アートトランスファービリティーメトリクスの状態と同等であることが示された。
論文 参考訳(メタデータ) (2023-01-17T14:50:18Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - A Taxonomy of Similarity Metrics for Markov Decision Processes [62.997667081978825]
近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
論文 参考訳(メタデータ) (2021-03-08T12:36:42Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - DEPARA: Deep Attribution Graph for Deep Knowledge Transferability [91.06106524522237]
本稿では,PR-DNNから学んだ知識の伝達可能性を検討するために,DreP Attribution gRAph (DEPARA)を提案する。
DEPARAでは、ノードは入力に対応し、PR-DNNの出力に関してベクトル化された属性マップで表現される。
2つのPR-DNNの知識伝達性は、対応するDEPARAの類似性によって測定される。
論文 参考訳(メタデータ) (2020-03-17T02:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。