論文の概要: Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks
- arxiv url: http://arxiv.org/abs/2310.03161v1
- Date: Wed, 4 Oct 2023 21:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:22:12.127907
- Title: Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks
- Title(参考訳): 時間拡張強化学習タスクの同定におけるニューラルアーキテクチャの影響
- Authors: Victor Vadakechirayath George
- Abstract要約: Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。
さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by recent developments in attention models for image classification
and natural language processing, we present various Attention based
architectures in reinforcement learning (RL) domain, capable of performing well
on OpenAI Gym Atari-2600 game suite. In spite of the recent success of Deep
Reinforcement learning techniques in various fields like robotics, gaming and
healthcare, they suffer from a major drawback that neural networks are
difficult to interpret. We try to get around this problem with the help of
Attention based models. In Attention based models, extracting and overlaying of
attention map onto images allows for direct observation of information used by
agent to select actions and easier interpretation of logic behind the chosen
actions. Our models in addition to playing well on gym-Atari environments, also
provide insights on how agent perceives its environment. In addition, motivated
by recent developments in attention based video-classification models using
Vision Transformer, we come up with an architecture based on Vision
Transformer, for image-based RL domain too. Compared to previous works in
Vision Transformer, our model is faster to train and requires fewer
computational resources. 3
- Abstract(参考訳): 画像分類や自然言語処理における近年の注目モデルに触発されて,OpenAI Gym Atari-2600 ゲームスイートでよく機能する強化学習(RL)領域における注意型アーキテクチャを提案する。
近年、ロボット工学、ゲーム、医療など様々な分野でDeep Reinforcement Learning技術が成功しているにもかかわらず、ニューラルネットワークは解釈が難しいという大きな欠点に悩まされている。
我々は注意に基づくモデルの助けを借りてこの問題を解決しようとする。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択し、選択したアクションの背後にあるロジックの解釈を容易にするために使用する情報の直接観察が可能になる。
体育館とアタリの環境だけでなく、エージェントが環境をどう知覚するかの洞察も提供する。
さらに,視覚トランスフォーマを用いた注意に基づく映像分類モデルの発展により,画像ベースのrlドメインのための視覚トランスフォーマに基づくアーキテクチャを考案した。
従来のVision Transformerと比較して、我々のモデルはトレーニングが速く、計算資源も少なくなります。
3
関連論文リスト
- Vision Transformers Need Registers [29.101326748624665]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。
このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文 参考訳(メタデータ) (2023-09-28T16:45:46Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文 参考訳(メタデータ) (2022-10-03T14:56:05Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - D2RL: Deep Dense Architectures in Reinforcement Learning [47.67475810050311]
コンピュータビジョンと生成モデルにおけるアーキテクチャ選択の成功からインスピレーションを得ます。
各種ロボット学習ベンチマーク環境における強化学習における深層ネットワークと高密度接続の利用について検討した。
論文 参考訳(メタデータ) (2020-10-19T01:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。