論文の概要: Utilizing Skipped Frames in Action Repeats via Pseudo-Actions
- arxiv url: http://arxiv.org/abs/2105.03041v1
- Date: Fri, 7 May 2021 02:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:28:03.974292
- Title: Utilizing Skipped Frames in Action Repeats via Pseudo-Actions
- Title(参考訳): 擬似動作によるアクション繰り返しにおけるスキップフレームの利用
- Authors: Taisei Hashimoto and Yoshimasa Tsuruoka
- Abstract要約: 多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 13.985534521589253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many deep reinforcement learning settings, when an agent takes an action,
it repeats the same action a predefined number of times without observing the
states until the next action-decision point. This technique of action
repetition has several merits in training the agent, but the data between
action-decision points (i.e., intermediate frames) are, in effect, discarded.
Since the amount of training data is inversely proportional to the interval of
action repeats, they can have a negative impact on the sample efficiency of
training. In this paper, we propose a simple but effective approach to
alleviate to this problem by introducing the concept of pseudo-actions. The key
idea of our method is making the transition between action-decision points
usable as training data by considering pseudo-actions. Pseudo-actions for
continuous control tasks are obtained as the average of the action sequence
straddling an action-decision point. For discrete control tasks, pseudo-actions
are computed from learned action embeddings. This method can be combined with
any model-free reinforcement learning algorithm that involves the learning of
Q-functions. We demonstrate the effectiveness of our approach on both
continuous and discrete control tasks in OpenAI Gym.
- Abstract(参考訳): 多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
このアクション反復のテクニックはエージェントのトレーニングにいくつかのメリットがあるが、アクション分解点(つまり中間フレーム)間のデータは事実上破棄される。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
本稿では,疑似行動の概念を導入してこの問題を緩和する,シンプルで効果的なアプローチを提案する。
本手法の主な考え方は,擬似行動を考慮したトレーニングデータとして,行動決定点間の遷移を可能にすることである。
連続制御タスクに対する擬似アクションは、アクション決定ポイントを成すアクションシーケンスの平均として得られる。
離散制御タスクでは、擬似アクションは学習されたアクション埋め込みから計算される。
この手法はQ関数の学習を含む任意のモデルなし強化学習アルゴリズムと組み合わせることができる。
我々は,OpenAI Gymにおける連続的および離散的な制御タスクに対するアプローチの有効性を示す。
関連論文リスト
- Select before Act: Spatially Decoupled Action Repetition for Continuous Control [8.39061976254379]
強化学習(Reinforcement Learning, RL)は、ロボット操作や移動など、様々な連続的な制御タスクにおいて顕著な成功を収めている。
近年の研究では、RLにアクション繰り返しを組み込んで、サンプル効率の向上と性能の向上を図りつつ、アクション持続性の向上を実現している。
既存の方法は、繰り返しの間、すべてのアクション次元を全体として扱い、それらの違いを無視します。
本稿では,各アクション次元に対してクローズドループ・アク・オート・リピート・セレクションを個別に実装したSDARという新しい繰り返しフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:07:28Z) - Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation [15.684669299728743]
本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。
まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。
各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
論文 参考訳(メタデータ) (2025-01-24T14:47:33Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance [0.0]
この論文では、動的障害を伴うパスフィンディングにおいて発生する間隔制限の問題について考察する。
最近の研究は、間隔の数について強い仮定で学習し、凸部分集合に限られている。
パラメータ化強化学習とConstraintNetを拡張して任意の間隔で処理することで,環境の状態に依存しない2つのアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-13T09:13:13Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。