論文の概要: Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making
- arxiv url: http://arxiv.org/abs/2406.17098v1
- Date: Mon, 24 Jun 2024 19:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:31:07.439755
- Title: Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making
- Title(参考訳): 時間的距離の学習: コントラスト的継承的特徴は意思決定のための計量構造を提供することができる
- Authors: Vivek Myers, Chongyi Zheng, Anca Dragan, Sergey Levine, Benjamin Eysenbach,
- Abstract要約: 時間的距離は、計画、制御、強化学習のための多くのアルゴリズムの中心にある。
このような時間的距離を設定内で定義しようとする以前の試みは、重要な制限によって妨げられている。
比較学習によって学習された後継特徴が,三角形の不等式を満たす時間的距離を形成することを示す。
- 参考スコア(独自算出の注目度): 66.27188304203217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal distances lie at the heart of many algorithms for planning, control, and reinforcement learning that involve reaching goals, allowing one to estimate the transit time between two states. However, prior attempts to define such temporal distances in stochastic settings have been stymied by an important limitation: these prior approaches do not satisfy the triangle inequality. This is not merely a definitional concern, but translates to an inability to generalize and find shortest paths. In this paper, we build on prior work in contrastive learning and quasimetrics to show how successor features learned by contrastive learning (after a change of variables) form a temporal distance that does satisfy the triangle inequality, even in stochastic settings. Importantly, this temporal distance is computationally efficient to estimate, even in high-dimensional and stochastic settings. Experiments in controlled settings and benchmark suites demonstrate that an RL algorithm based on these new temporal distances exhibits combinatorial generalization (i.e., "stitching") and can sometimes learn more quickly than prior methods, including those based on quasimetrics.
- Abstract(参考訳): 時間的距離は、目標を達成するための計画、制御、強化学習のための多くのアルゴリズムの中心にあり、2つの州間の移動時間を見積もることができる。
しかし、そのような時間的距離を確率的設定で定義する以前の試みは、重要な制限によって、その事前のアプローチは三角形の不等式を満足していない。
これは単に定義上の関心事ではなく、最も短い経路の一般化と発見ができないことを意味する。
本稿では, 比較学習と準計量学における先行研究に基づいて, 比較学習によって学習された後継特徴が, 確率的設定においても, 三角形の不等式を満たす時間的距離をいかに形成するかを示す。
重要なことは、この時間的距離は、高次元および確率的な設定であっても、推定に計算的に効率的である。
制御された設定とベンチマークスイートの実験では、これらの新しい時間距離に基づくRLアルゴリズムが組合せ一般化(すなわち「スティッチング」)を示し、準距離に基づくアルゴリズムを含む従来の手法よりも高速に学習できることが示されている。
関連論文リスト
- STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - The Stochastic Proximal Distance Algorithm [5.3315823983402755]
本稿では,所望の制約付き推定問題をペナルティパラメータとして回復する反復最適化手法のクラスを提案し,解析する。
我々は、最近の理論装置を拡張して有限誤差境界を確立し、収束率の完全な評価を行う。
また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T22:07:28Z) - Weakly-supervised Temporal Path Representation Learning with Contrastive
Curriculum Learning -- Extended Version [35.86394282979721]
時間的情報、例えば出発時刻を含む時間的パス(TP)は、そのようなアプリケーションを可能にするために基本的なものである。
i) 教師付き手法ではトレーニング時に大量のタスク固有のラベルを必要とするため、既存の手法では目標達成に失敗し、得られたTPRを他のタスクに一般化することができない。
本稿では,時間的経路の空間的情報と時間的情報の両方をTPRにエンコードするWakly Supervised Contrastive (WSC)学習モデルを提案する。
論文 参考訳(メタデータ) (2022-03-30T07:36:20Z) - TimeREISE: Time-series Randomized Evolving Input Sample Explanation [5.557646286040063]
TimeREISEは時系列分類の文脈において、特に成功に対応するモデル属性法である。
本手法は, 既往の高精度な測定方法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2022-02-16T09:40:13Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文 参考訳(メタデータ) (2021-05-10T06:07:05Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。