論文の概要: DCT: Dual Channel Training of Action Embeddings for Reinforcement
Learning with Large Discrete Action Spaces
- arxiv url: http://arxiv.org/abs/2306.15913v1
- Date: Wed, 28 Jun 2023 04:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:56:37.913996
- Title: DCT: Dual Channel Training of Action Embeddings for Reinforcement
Learning with Large Discrete Action Spaces
- Title(参考訳): DCT:大規模離散行動空間を用いた強化学習のためのアクション埋め込みのデュアルチャネルトレーニング
- Authors: Pranavi Pathakota and Hardik Meisheri and Harshad Khadilkar
- Abstract要約: 本稿では,アクション埋め込みを効果的に学習する新しいフレームワークを提案する。
我々は、トレーニングされたデコーダと標準強化学習アルゴリズムを併用して、埋め込み空間でアクションを生成する。
実験の結果、モデルがよりクリーンなアクション埋め込みをもたらすことが示され、改善された表現は、より早い収束でより良いポリシーを学ぶのに役立つ。
- 参考スコア(独自算出の注目度): 4.168157981135697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability to learn robust policies while generalizing over large discrete
action spaces is an open challenge for intelligent systems, especially in noisy
environments that face the curse of dimensionality. In this paper, we present a
novel framework to efficiently learn action embeddings that simultaneously
allow us to reconstruct the original action as well as to predict the expected
future state. We describe an encoder-decoder architecture for action embeddings
with a dual channel loss that balances between action reconstruction and state
prediction accuracy. We use the trained decoder in conjunction with a standard
reinforcement learning algorithm that produces actions in the embedding space.
Our architecture is able to outperform two competitive baselines in two diverse
environments: a 2D maze environment with more than 4000 discrete noisy actions,
and a product recommendation task that uses real-world e-commerce transaction
data. Empirical results show that the model results in cleaner action
embeddings, and the improved representations help learn better policies with
earlier convergence.
- Abstract(参考訳): 大規模な離散的行動空間を一般化しながら強固なポリシーを学ぶ能力は、知的システム、特に次元の呪いに直面する雑音環境にとって、オープンな課題である。
本稿では,アクション埋め込みを効率的に学習するための新しい枠組みを提案する。
本稿では、動作再構成と状態予測精度のバランスをとる2つのチャネル損失を持つ動作埋め込みのためのエンコーダデコーダアーキテクチャについて述べる。
我々は、トレーニングされたデコーダと、埋め込み空間でアクションを生成する標準強化学習アルゴリズムを併用する。
私たちのアーキテクチャは、4000以上の離散的なノイズアクションを持つ2d maze環境と、現実世界のeコマーストランザクションデータを使用するプロダクトレコメンデーションタスクという、2つの異なる環境での2つの競合ベースラインよりも優れています。
経験的な結果は、モデルがよりクリーンなアクション埋め込みをもたらすことを示し、改善された表現はより早い収束でより良いポリシーを学ぶのに役立つ。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにおいて重要な役割を担っている。
ダブルダイナミクスは、リアルタイムISACプリコーディング設計において重要な課題を示す。
本稿では,機械(SoM)に強化されたプリコーディングパラダイムの合成を提案する。
論文 参考訳(メタデータ) (2024-08-24T10:35:10Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Elaborative Rehearsal for Zero-shot Action Recognition [36.84404523161848]
ZSARは、トレーニングサンプルなしでターゲット(見えない)アクションを認識することを目的としている。
アクションクラスを意味的に表現し、見てきたデータから知識を伝達することは依然として困難である。
本稿では,効率的なヒューマンメモリ技術であるElaborative RehearsalにインスパイアされたER強化ZSARモデルを提案する。
論文 参考訳(メタデータ) (2021-08-05T20:02:46Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。