Fugu-MT 論文翻訳(概要): Neural architecture impact on identifying temporally extended Reinforcement Learning tasks

論文の概要: Neural architecture impact on identifying temporally extended Reinforcement Learning tasks

arxiv url: http://arxiv.org/abs/2310.03161v1
Date: Wed, 4 Oct 2023 21:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 20:22:12.127907
Title: Neural architecture impact on identifying temporally extended Reinforcement Learning tasks
Title（参考訳）: 時間拡張強化学習タスクの同定におけるニューラルアーキテクチャの影響
Authors: Victor Vadakechirayath George
Abstract要約: Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspired by recent developments in attention models for image classification and natural language processing, we present various Attention based architectures in reinforcement learning (RL) domain, capable of performing well on OpenAI Gym Atari-2600 game suite. In spite of the recent success of Deep Reinforcement learning techniques in various fields like robotics, gaming and healthcare, they suffer from a major drawback that neural networks are difficult to interpret. We try to get around this problem with the help of Attention based models. In Attention based models, extracting and overlaying of attention map onto images allows for direct observation of information used by agent to select actions and easier interpretation of logic behind the chosen actions. Our models in addition to playing well on gym-Atari environments, also provide insights on how agent perceives its environment. In addition, motivated by recent developments in attention based video-classification models using Vision Transformer, we come up with an architecture based on Vision Transformer, for image-based RL domain too. Compared to previous works in Vision Transformer, our model is faster to train and requires fewer computational resources. 3
Abstract（参考訳）: 画像分類や自然言語処理における近年の注目モデルに触発されて,OpenAI Gym Atari-2600 ゲームスイートでよく機能する強化学習(RL)領域における注意型アーキテクチャを提案する。近年、ロボット工学、ゲーム、医療など様々な分野でDeep Reinforcement Learning技術が成功しているにもかかわらず、ニューラルネットワークは解釈が難しいという大きな欠点に悩まされている。我々は注意に基づくモデルの助けを借りてこの問題を解決しようとする。注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択し、選択したアクションの背後にあるロジックの解釈を容易にするために使用する情報の直接観察が可能になる。体育館とアタリの環境だけでなく、エージェントが環境をどう知覚するかの洞察も提供する。さらに,視覚トランスフォーマを用いた注意に基づく映像分類モデルの発展により,画像ベースのrlドメインのための視覚トランスフォーマに基づくアーキテクチャを考案した。従来のVision Transformerと比較して、我々のモデルはトレーニングが速く、計算資源も少なくなります。 3

関連論文リスト

ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文参考訳（メタデータ） (2024-08-27T16:22:18Z)
Theia: Distilling Diverse Vision Foundation Models for Robot Learning [6.709078873834651]
Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
論文参考訳（メタデータ） (2024-07-29T17:08:21Z)
Vision Transformers Need Registers [26.63912173005165]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文参考訳（メタデータ） (2023-09-28T16:45:46Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-28T18:42:27Z)
Improving Sample Efficiency of Value Based Models Using Attention and Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文参考訳（メタデータ） (2022-02-01T19:03:03Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)
D2RL: Deep Dense Architectures in Reinforcement Learning [47.67475810050311]
コンピュータビジョンと生成モデルにおけるアーキテクチャ選択の成功からインスピレーションを得ます。各種ロボット学習ベンチマーク環境における強化学習における深層ネットワークと高密度接続の利用について検討した。
論文参考訳（メタデータ） (2020-10-19T01:27:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。