論文の概要: For SALE: State-Action Representation Learning for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.02451v1
- Date: Sun, 4 Jun 2023 19:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:49:09.817767
- Title: For SALE: State-Action Representation Learning for Deep Reinforcement
Learning
- Title(参考訳): SALE:Deep Reinforcement Learningのためのステートアクション表現学習
- Authors: Scott Fujimoto, Wei-Di Chang, Edward J. Smith, Shixiang Shane Gu,
Doina Precup, David Meger
- Abstract要約: SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。
我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。
OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 61.51911455699882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of reinforcement learning (RL), representation learning is a
proven tool for complex image-based tasks, but is often overlooked for
environments with low-level states, such as physical control problems. This
paper introduces SALE, a novel approach for learning embeddings that model the
nuanced interaction between state and action, enabling effective representation
learning from low-level states. We extensively study the design space of these
embeddings and highlight important design considerations. We integrate SALE and
an adaptation of checkpoints for RL into TD3 to form the TD7 algorithm, which
significantly outperforms existing continuous control algorithms. On OpenAI gym
benchmark tasks, TD7 has an average performance gain of 276.7% and 50.7% over
TD3 at 300k and 5M time steps, respectively, and works in both the online and
offline settings.
- Abstract(参考訳): 強化学習(RL)の分野では、表現学習は複雑な画像に基づくタスクのための証明済みのツールであるが、物理制御問題などの低レベル状態の環境では見過ごされがちである。
本稿では,状態と動作の相互作用をモデル化し,低レベル状態からの効果的な表現学習を可能にする,埋め込み学習の新しいアプローチであるSALEを紹介する。
我々はこれらの埋め込みの設計空間を広く研究し、重要な設計上の考察を強調した。
我々は、SALEとRLのチェックポイントをTD3に組み込んでTD7アルゴリズムを作り、既存の連続制御アルゴリズムを著しく上回っている。
openai gymベンチマークタスクでは、td7は平均パフォーマンスが276.7%、td3が3kと5mのタイムステップで50.7%向上し、オンラインとオフラインの両方で動作します。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - ActiveAnno3D -- An Active Learning Framework for Multi-Modal 3D Object
Detection [15.885344033374393]
ラベル付けのためのデータサンプルを選択するためのアクティブラーニングフレームワークであるActiveAnno3Dを提案する。
我々は nuScenes と TUM Traffic Intersection データセット上で BEVFusion と PV-RCNN を用いて実験およびアブレーション研究を行った。
アクティブな学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にします。
論文 参考訳(メタデータ) (2024-02-05T17:52:58Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。
私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文 参考訳(メタデータ) (2021-01-12T20:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。