論文の概要: Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks
- arxiv url: http://arxiv.org/abs/2310.03161v1
- Date: Wed, 4 Oct 2023 21:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:22:12.127907
- Title: Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks
- Title(参考訳): 時間拡張強化学習タスクの同定におけるニューラルアーキテクチャの影響
- Authors: Victor Vadakechirayath George
- Abstract要約: Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。
さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by recent developments in attention models for image classification
and natural language processing, we present various Attention based
architectures in reinforcement learning (RL) domain, capable of performing well
on OpenAI Gym Atari-2600 game suite. In spite of the recent success of Deep
Reinforcement learning techniques in various fields like robotics, gaming and
healthcare, they suffer from a major drawback that neural networks are
difficult to interpret. We try to get around this problem with the help of
Attention based models. In Attention based models, extracting and overlaying of
attention map onto images allows for direct observation of information used by
agent to select actions and easier interpretation of logic behind the chosen
actions. Our models in addition to playing well on gym-Atari environments, also
provide insights on how agent perceives its environment. In addition, motivated
by recent developments in attention based video-classification models using
Vision Transformer, we come up with an architecture based on Vision
Transformer, for image-based RL domain too. Compared to previous works in
Vision Transformer, our model is faster to train and requires fewer
computational resources. 3
- Abstract(参考訳): 画像分類や自然言語処理における近年の注目モデルに触発されて,OpenAI Gym Atari-2600 ゲームスイートでよく機能する強化学習(RL)領域における注意型アーキテクチャを提案する。
近年、ロボット工学、ゲーム、医療など様々な分野でDeep Reinforcement Learning技術が成功しているにもかかわらず、ニューラルネットワークは解釈が難しいという大きな欠点に悩まされている。
我々は注意に基づくモデルの助けを借りてこの問題を解決しようとする。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択し、選択したアクションの背後にあるロジックの解釈を容易にするために使用する情報の直接観察が可能になる。
体育館とアタリの環境だけでなく、エージェントが環境をどう知覚するかの洞察も提供する。
さらに,視覚トランスフォーマを用いた注意に基づく映像分類モデルの発展により,画像ベースのrlドメインのための視覚トランスフォーマに基づくアーキテクチャを考案した。
従来のVision Transformerと比較して、我々のモデルはトレーニングが速く、計算資源も少なくなります。
3
関連論文リスト
- ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Theia: Distilling Diverse Vision Foundation Models for Robot Learning [6.709078873834651]
Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。
テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
論文 参考訳(メタデータ) (2024-07-29T17:08:21Z) - Vision Transformers Need Registers [26.63912173005165]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。
このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文 参考訳(メタデータ) (2023-09-28T16:45:46Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - D2RL: Deep Dense Architectures in Reinforcement Learning [47.67475810050311]
コンピュータビジョンと生成モデルにおけるアーキテクチャ選択の成功からインスピレーションを得ます。
各種ロボット学習ベンチマーク環境における強化学習における深層ネットワークと高密度接続の利用について検討した。
論文 参考訳(メタデータ) (2020-10-19T01:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。