論文の概要: Revisiting Bisimulation Metric for Robust Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.18519v1
- Date: Thu, 24 Jul 2025 15:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.931586
- Title: Revisiting Bisimulation Metric for Robust Representations in Reinforcement Learning
- Title(参考訳): 強化学習におけるロバスト表現のためのビシミュレーション基準の再検討
- Authors: Leiji Zhang, Zeyu Wang, Xin Li, Yao-Hui Li,
- Abstract要約: 従来の模擬検定法では,2つの問題点が指摘されている。
本稿では,報酬ギャップのより正確な定義と適応係数を持つ新しい更新演算子を特徴とするバイシミュレーション・メトリックを提案する。
- 参考スコア(独自算出の注目度): 7.2951508303962385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bisimulation metric has long been regarded as an effective control-related representation learning technique in various reinforcement learning tasks. However, in this paper, we identify two main issues with the conventional bisimulation metric: 1) an inability to represent certain distinctive scenarios, and 2) a reliance on predefined weights for differences in rewards and subsequent states during recursive updates. We find that the first issue arises from an imprecise definition of the reward gap, whereas the second issue stems from overlooking the varying importance of reward difference and next-state distinctions across different training stages and task settings. To address these issues, by introducing a measure for state-action pairs, we propose a revised bisimulation metric that features a more precise definition of reward gap and novel update operators with adaptive coefficient. We also offer theoretical guarantees of convergence for our proposed metric and its improved representation distinctiveness. In addition to our rigorous theoretical analysis, we conduct extensive experiments on two representative benchmarks, DeepMind Control and Meta-World, demonstrating the effectiveness of our approach.
- Abstract(参考訳): バイシミュレーション・メトリックは, 様々な強化学習タスクにおいて, 効果的な制御関連表現学習技術として長い間見なされてきた。
しかし,本論文では,従来の模擬計量の2つの主問題について述べる。
1)特定の特異なシナリオを表現できないこと、
2)再帰的更新時の報酬及びその後の状態の違いに対する事前定義された重みへの依存。
第1の問題は報酬ギャップの不正確な定義から生じるものであるのに対し,第2の問題は,報酬の相違と,異なるトレーニングステージやタスク設定における次の状態の違いの相違の重要性を見越すことから生じる。
これらの問題に対処するため、状態-作用対の尺度を導入し、報酬ギャップのより正確な定義と適応係数を持つ新しい更新演算子を特徴とする、修正された模擬指標を提案する。
また、提案した計量に対する収束の理論的保証と、その表現性の向上も提供する。
厳密な理論解析に加えて、DeepMind ControlとMeta-Worldという2つの代表的なベンチマークで広範な実験を行い、我々のアプローチの有効性を実証した。
関連論文リスト
- Measuring Representational Shifts in Continual Learning: A Linear Transformation Perspective [12.769918589649299]
継続的な学習シナリオでは、以前に学んだタスクの破滅的な忘れ忘れが重要な問題である。
本稿では,表現を忘れることに関する最初の理論的分析を行い,この分析を用いて連続学習の振る舞いをよりよく理解する。
論文 参考訳(メタデータ) (2025-05-27T10:04:00Z) - Independence Constrained Disentangled Representation Learning from Epistemological Perspective [13.51102815877287]
Disentangled Representation Learningは、データ生成プロセスにおいて意味論的に意味のある潜伏変数を識別するデータエンコーダをトレーニングすることで、ディープラーニングメソッドの説明可能性を向上させることを目的としている。
不整合表現学習の目的については合意が得られない。
本稿では,相互情報制約と独立性制約を統合した非絡み合い表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:00:59Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
ネットワーク化されたアプローチは、障害の更新や人口規模の変化に対する堅牢性という点において、両方の選択肢に対して大きなメリットがあることが示されています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Unifying Regularisation Methods for Continual Learning [0.913755431537592]
継続的学習は、複数の異なるタスクを逐次学習するという課題に対処する。
以前のタスクの知識を再アクセスすることなく維持するという目標は、ニューラルネットワークの標準的なSGDトレーニングと激しく対立する。
正規化アプローチは、与えられたタスクを解決するための各パラメータの重要性を測定し、大きな変更から重要なパラメータを保護する。
論文 参考訳(メタデータ) (2020-06-11T12:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。