Fugu-MT 論文翻訳(概要): Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

論文の概要: Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

arxiv url: http://arxiv.org/abs/2304.01203v7
Date: Sun, 26 Nov 2023 19:44:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 16:27:34.873110
Title: Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning
Title（参考訳）: 準メトリック学習による最適ゴールリーチ強化学習
Authors: Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang
Abstract要約: 準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
参考スコア（独自算出の注目度）: 73.80728148866906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.
Abstract（参考訳）: 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。

関連論文リスト

Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning [16.84451472788859]
Eikonal-Constrained Quasimetric RL (Eik-QRL) は、Eikonal partial Differential Equation (PDE) に基づく準メトリックRLの連続時間再構成である。 Eik-HiQRLは、オフラインのゴール条件付きナビゲーションにおける最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。
論文参考訳（メタデータ） (2025-12-12T21:37:11Z)
Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文参考訳（メタデータ） (2025-11-05T13:56:14Z)
Offline Goal-conditioned Reinforcement Learning with Quasimetric Representations [72.24831946301613]
目標条件強化学習(GCRL)へのアプローチは、しばしば学習状態表現を用いて目標達成ポリシーを抽出する。本稿では,この2つのフレームワークを,準計量表現空間(三角不等式)の構造と適切な追加制約を用いて統合し,最適ゴール獲得を可能にする後続表現を学習する手法を提案する。提案手法は,* 準距離パラメータ化を用いて,* 準距離* と * 準距離* を学習し,* 準距離* と *stochastic* の環境においても,* 準距離* を学習することができる。
論文参考訳（メタデータ） (2025-09-24T18:45:32Z)
A Technical Survey of Reinforcement Learning Techniques for Large Language Models [33.38582292895673]
大規模言語モデル(LLM)の整合・拡張のための変換的アプローチとして強化学習(RL)が登場している。 RLHFはアライメントにおいて支配的であり、RLVRのような結果ベースのRLは段階的推論を著しく改善する。報酬のハッキング、計算コスト、スケーラブルなフィードバック収集といった永続的な課題は、継続的なイノベーションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-05T19:13:00Z)
Yes, Q-learning Helps Offline In-Context RL [69.26691452160505]
RL目標の最適化は,広く確立されたアルゴリズム蒸留(AD)ベースラインと比較して,平均で約40%向上することを示す。また、オフラインのRLベースの手法は、オフラインのシナリオに特化して設計されていないオンラインアプローチよりも優れていることも明らかにした。
論文参考訳（メタデータ） (2025-02-24T21:29:06Z)
Towards General-Purpose Model-Free Reinforcement Learning [40.973429772093155]
強化学習(RL)は、ほぼ普遍的な問題解決のためのフレームワークを約束する。実際には、RLアルゴリズムは特定のベンチマークに合わせて調整されることが多い。そこで本研究では,ドメインと問題設定の多様なクラスに対処可能なモデルフリーの深部RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-27T15:36:37Z)
EdgeRL: Reinforcement Learning-driven Deep Learning Model Inference Optimization at Edge [2.8946323553477704]
本稿では,Advantage Actor-Critic (A2C) Reinforcement Learning (RL)アプローチを用いて,バランスを打とうとするEdgeRLフレームワークを提案する。我々はEdgeRLフレームワークの利点を,端末の省エネ,推論精度の向上,エンドツーエンドの推論遅延低減の観点から評価した。
論文参考訳（メタデータ） (2024-10-16T04:31:39Z)
Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
最適目的は強化学習(RL)の基本的側面である総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。目的を整合させる2つの方法を提案する。
論文参考訳（メタデータ） (2024-07-18T08:33:10Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文参考訳（メタデータ） (2024-02-16T16:46:53Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文参考訳（メタデータ） (2022-10-18T06:34:52Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。 GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文参考訳（メタデータ） (2022-08-17T08:04:41Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。