Fugu-MT 論文翻訳(概要): Composable Learning with Sparse Kernel Representations

論文の概要: Composable Learning with Sparse Kernel Representations

arxiv url: http://arxiv.org/abs/2103.14474v1
Date: Fri, 26 Mar 2021 13:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-29 12:30:07.277694
Title: Composable Learning with Sparse Kernel Representations
Title（参考訳）: スパースカーネル表現を用いた構成可能学習
Authors: Ekaterina Tolstaya, Ethan Stump, Alec Koppel, Alejandro Ribeiro
Abstract要約: 再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。 2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
参考スコア（独自算出の注目度）: 110.19179439773578
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a reinforcement learning algorithm for learning sparse non-parametric controllers in a Reproducing Kernel Hilbert Space. We improve the sample complexity of this approach by imposing a structure of the state-action function through a normalized advantage function (NAF). This representation of the policy enables efficiently composing multiple learned models without additional training samples or interaction with the environment. We demonstrate the performance of this algorithm on learning obstacle-avoidance policies in multiple simulations of a robot equipped with a laser scanner while navigating in a 2D environment. We apply the composition operation to various policy combinations and test them to show that the composed policies retain the performance of their components. We also transfer the composed policy directly to a physical platform operating in an arena with obstacles in order to demonstrate a degree of generalization.
Abstract（参考訳）: 再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。我々は、正規化優位関数(NAF)を通して状態-作用関数の構造を付与することにより、このアプローチのサンプル複雑性を改善する。このポリシーの表現は、追加のトレーニングサンプルや環境とのインタラクションなしに、効率的に複数の学習モデルを構成することができる。本研究では,レーザスキャナを搭載したロボットを2次元環境下で操作しながら,障害物回避ポリシーを学習するためのアルゴリズムの性能を実演する。コンポジション操作を様々なポリシの組み合わせに適用し,構成されたポリシがコンポーネントのパフォーマンスを維持することを示す。また,一般化の度合いを示すために,構成ポリシを障害物のあるアリーナで動作している物理プラットフォームに直接転送する。

関連論文リスト

Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-07-22T01:13:45Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文参考訳（メタデータ） (2024-05-21T20:53:18Z)
Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文参考訳（メタデータ） (2024-03-28T14:34:02Z)
Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
AGPNet -- Autonomous Grading Policy Network [0.5232537118394002]
マルコフ決定過程として問題を定式化し,エージェントと環境の相互作用を示すシミュレーションを設計する。我々は、強化学習、行動クローニング、コントラスト学習などの手法を用いて、ハイブリッド政策を訓練する。我々の訓練されたエージェントであるAGPNetは、人間レベルのパフォーマンスに達し、自律的なグルーピングタスクのために現在の最先端の機械学習手法より優れています。
論文参考訳（メタデータ） (2021-12-20T21:44:21Z)
Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文参考訳（メタデータ） (2021-10-06T19:30:25Z)
Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文参考訳（メタデータ） (2021-01-06T19:07:31Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
PFPN: Continuous Control of Physically Simulated Characters using Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文参考訳（メタデータ） (2020-03-16T00:35:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。