論文の概要: For SALE: State-Action Representation Learning for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.02451v2
- Date: Sun, 5 Nov 2023 16:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:17:17.120766
- Title: For SALE: State-Action Representation Learning for Deep Reinforcement
Learning
- Title(参考訳): SALE:Deep Reinforcement Learningのためのステートアクション表現学習
- Authors: Scott Fujimoto, Wei-Di Chang, Edward J. Smith, Shixiang Shane Gu,
Doina Precup, David Meger
- Abstract要約: SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。
我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。
OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 60.42044715596703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of reinforcement learning (RL), representation learning is a
proven tool for complex image-based tasks, but is often overlooked for
environments with low-level states, such as physical control problems. This
paper introduces SALE, a novel approach for learning embeddings that model the
nuanced interaction between state and action, enabling effective representation
learning from low-level states. We extensively study the design space of these
embeddings and highlight important design considerations. We integrate SALE and
an adaptation of checkpoints for RL into TD3 to form the TD7 algorithm, which
significantly outperforms existing continuous control algorithms. On OpenAI gym
benchmark tasks, TD7 has an average performance gain of 276.7% and 50.7% over
TD3 at 300k and 5M time steps, respectively, and works in both the online and
offline settings.
- Abstract(参考訳): 強化学習(RL)の分野では、表現学習は複雑な画像に基づくタスクのための証明済みのツールであるが、物理制御問題などの低レベル状態の環境では見過ごされがちである。
本稿では,状態と動作の相互作用をモデル化し,低レベル状態からの効果的な表現学習を可能にする,埋め込み学習の新しいアプローチであるSALEを紹介する。
我々はこれらの埋め込みの設計空間を広く研究し、重要な設計上の考察を強調した。
我々は、SALEとRLのチェックポイントをTD3に組み込んでTD7アルゴリズムを作り、既存の連続制御アルゴリズムを著しく上回っている。
openai gymベンチマークタスクでは、td7は平均パフォーマンスが276.7%、td3が3kと5mのタイムステップで50.7%向上し、オンラインとオフラインの両方で動作します。
関連論文リスト
- ActiveAnno3D -- An Active Learning Framework for Multi-Modal 3D Object
Detection [15.885344033374393]
ラベル付けのためのデータサンプルを選択するためのアクティブラーニングフレームワークであるActiveAnno3Dを提案する。
我々は nuScenes と TUM Traffic Intersection データセット上で BEVFusion と PV-RCNN を用いて実験およびアブレーション研究を行った。
アクティブな学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にします。
論文 参考訳(メタデータ) (2024-02-05T17:52:58Z) - BootsTAP: Bootstrapped Training for Tracking-Any-Point [59.78386347329731]
Tracking-Any-Point (TAP) は、ビデオ中の固体表面に対応する任意の点を追跡できるアルゴリズムである。
大規模でラベルなし、未修正の現実世界データは、最小限のアーキテクチャ変更でTAPモデルを改善することができる。
我々は,TAP-Vidベンチマークにおける最先端性能が,従来の結果よりも広いマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-01T18:38:55Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual
Reinforcement Learning [59.56908567984917]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。
私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文 参考訳(メタデータ) (2021-01-12T20:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。