論文の概要: Bilinear value networks
- arxiv url: http://arxiv.org/abs/2204.13695v2
- Date: Thu, 15 Jun 2023 04:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:12:39.454193
- Title: Bilinear value networks
- Title(参考訳): 双線形値ネットワーク
- Authors: Zhang-Wei Hong, Ge Yang, Pulkit Agrawal
- Abstract要約: 両線形分解方式はデータ効率を大幅に向上させ, 分配目標への転送に優れることを示す。
シミュレーションされたFetchロボットのタスクスーツとシャドウハンドによる巧妙な操作に関する実証的証拠が提供される。
- 参考スコア(独自算出の注目度): 16.479582509493756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant framework for off-policy multi-goal reinforcement learning
involves estimating goal conditioned Q-value function. When learning to achieve
multiple goals, data efficiency is intimately connected with the generalization
of the Q-function to new goals. The de-facto paradigm is to approximate Q(s, a,
g) using monolithic neural networks. To improve the generalization of the
Q-function, we propose a bilinear decomposition that represents the Q-value via
a low-rank approximation in the form of a dot product between two vector
fields. The first vector field, f(s, a), captures the environment's local
dynamics at the state s; whereas the second component, {\phi}(s, g), captures
the global relationship between the current state and the goal. We show that
our bilinear decomposition scheme substantially improves data efficiency, and
has superior transfer to out-of-distribution goals compared to prior methods.
Empirical evidence is provided on the simulated Fetch robot task-suite and
dexterous manipulation with a Shadow hand.
- Abstract(参考訳): オフ・ポリシー・マルチゴール強化学習の主要な枠組みは、目標条件付きq値関数の推定である。
複数の目標を達成するために学習する場合、データ効率は新しい目標へのQ関数の一般化と密接に関連している。
デファクトパラダイムは、モノリシックニューラルネットワークを用いてQ(s, a, g)を近似することである。
Q-関数の一般化を改善するために、2つのベクトル場間のドット積の形で低ランク近似を用いてQ-値を表す双線型分解を提案する。
第1のベクトル場 f(s, a) は状態 s における環境の局所ダイナミクスをキャプチャし、第2の成分 {\phi}(s, g) は現在の状態とゴールの間の大域的な関係をキャプチャする。
両線形分解方式はデータ効率を大幅に向上させ, 従来の方法に比べて分布外目標への移行に優れることを示す。
シミュレーションされたFetchロボットのタスクスーツとシャドウハンドによる巧妙な操作に関する実証的証拠を提供する。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Scalable Property Valuation Models via Graph-based Deep Learning [5.172964916120902]
類似した特徴を持つ近隣住宅の配列を効果的に同定する2つの新しいグラフニューラルネットワークモデルを開発した。
本研究では, グラフニューラルネットワークを用いて住宅価格予測を行うことにより, 住宅価格予測の精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-05-10T15:54:55Z) - The limitation of neural nets for approximation and optimization [0.0]
最適化問題における目的関数の近似と最小化のために,ニューラルネットワークを代理モデルとして用いることに関心がある。
本研究は、一般的な非線形最適化テスト問題の目的関数を近似する最適なアクティベーション関数を決定することから始まる。
論文 参考訳(メタデータ) (2023-11-21T00:21:15Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Functional Indirection Neural Estimator for Better Out-of-distribution
Generalization [27.291114360472243]
FINE(Functional Indirection Neural Estorimator)は、入力されたデータをオンザフライで出力する関数を構成することを学ぶ。
我々は、MNIST、Omniglot、CIFAR100データセットの画像を用いて、IQタスク上でFINEと競合するモデルを訓練する。
FINEはすべてのタスクで最高のパフォーマンスを達成するだけでなく、小さなデータシナリオにも適応できる。
論文 参考訳(メタデータ) (2022-10-23T14:43:02Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Graph-based Algorithm Unfolding for Energy-aware Power Allocation in
Wireless Networks [27.600081147252155]
我々は,無線通信網におけるエネルギー効率を最大化する新しいグラフ要約フレームワークを開発した。
無線ネットワークデータのモデルに望ましい特性である置換訓練について述べる。
結果は、異なるネットワークトポロジにまたがる一般化可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T20:23:24Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。