論文の概要: Speeding up reinforcement learning by combining attention and agency
features
- arxiv url: http://arxiv.org/abs/1912.12623v1
- Date: Sun, 29 Dec 2019 10:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 07:38:35.109434
- Title: Speeding up reinforcement learning by combining attention and agency
features
- Title(参考訳): 注意とエージェント機能を組み合わせた強化学習の高速化
- Authors: Berkay Demirel, Mart\'i S\'anchez-Fibla
- Abstract要約: 我々は、注意とエージェント検出機構を組み合わせた入力状態の異なる変換を提案する。
その結果、グローバルなローカルな状態ネットワークでさえ、グローバルな単独よりも速く学習できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When playing video-games we immediately detect which entity we control and we
center the attention towards it to focus the learning and reduce its
dimensionality. Reinforcement Learning (RL) has been able to deal with big
state spaces, including states derived from pixel images in Atari games, but
the learning is slow, depends on the brute force mapping from the global state
to the action values (Q-function), thus its performance is severely affected by
the dimensionality of the state and cannot be transferred to other games or
other parts of the same game. We propose different transformations of the input
state that combine attention and agency detection mechanisms which both have
been addressed separately in RL but not together to our knowledge. We propose
and benchmark different architectures including both global and local agency
centered versions of the state and also including summaries of the
surroundings. Results suggest that even a redundant global-local state network
can learn faster than the global alone. Summarized versions of the state look
promising to achieve input-size independence learning.
- Abstract(参考訳): ビデオゲームをするとき、我々はすぐに制御する実体を検出し、学習に集中し、その次元を小さくするために注意を集中する。
強化学習(RL)は、アタリゲームにおける画素画像から派生した状態を含む大きな状態空間を扱うことができるが、学習は遅く、世界状態からアクション値(Q-関数)へのブルート力マッピングに依存しているため、その性能は状態の寸法に大きく影響され、同じゲームの他のゲームや他の部分に転送することはできない。
我々は,rlで別々に取り組まれてきたが,我々の知識とは無関係な注意と機関検出機構を組み合わせた入力状態の異なる変換を提案する。
本研究は,グローバル・ローカル・エージェンシーが中心とする国別および周辺地域の要約を含む異なるアーキテクチャの提案とベンチマークを行う。
その結果、冗長なグローバルローカルステートネットワークでさえ、グローバルのみよりも速く学習できることが示唆された。
州を要約したバージョンは、インプットサイズの独立学習を達成することを約束しているように見える。
関連論文リスト
- Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning [36.25611963252774]
拡散モデルによる状態推論(SIDIFF)は、画像の露光にインスパイアされている。
SIDIFFは、ローカルな観測のみに基づいて、元のグローバルステートを再構築する。
現在のマルチエージェント強化学習アルゴリズムに無理に組み込むことができる。
論文 参考訳(メタデータ) (2024-08-18T14:49:53Z) - MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared
Semantic Spaces [4.27038429382431]
我々は、オフライン強化学習をマルチモーダル言語モデルと事前学習言語モデルを統合することで教師付き学習タスクに変換する。
提案手法では,画像から得られた状態情報と,テキストから得られた行動関連データを取り入れた。
提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-20T09:15:50Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Guaranteed Discovery of Controllable Latent States with Multi-Step
Inverse Models [51.754160866582005]
エージェント制御可能な状態探索アルゴリズム(AC-State)
アルゴリズムは多段階の逆モデル(遠方の観測から行動を予測する)と情報ボトルネックから構成される。
本稿では,3つの領域において制御可能な潜伏状態の発見を実証する。ロボットアームの局所化,他のエージェントとともに迷路を探索し,Matterportハウスシミュレーターをナビゲートする。
論文 参考訳(メタデータ) (2022-07-17T17:06:52Z) - S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent
Reinforcement Learning? [26.265100805551764]
協調型マルチエージェント強化学習(MARL)は多くの実践的応用で広く利用されている。
局所観測における無関係情報を捨てるために,スパースアテンション機構を利用したスパース状態ベースMARLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-20T07:33:40Z) - Distillation with Contrast is All You Need for Self-Supervised Point
Cloud Representation Learning [53.90317574898643]
本稿では,自己教師付きポイントクラウド表現学習のためのシンプルで汎用的なフレームワークを提案する。
人類が世界を理解する方法に触発されて、我々は知識蒸留を利用して、グローバルな形状情報と、グローバルな形状と局所的な構造の関係の両方を学ぶ。
本手法は,線形分類および複数の下流タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-09T02:51:59Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。