論文の概要: Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration
- arxiv url: http://arxiv.org/abs/2108.11717v1
- Date: Thu, 26 Aug 2021 11:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:02:48.982671
- Title: Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration
- Title(参考訳): Glimpse-Attend-and-Explore:アクティブビジュアル探索のための自己注意
- Authors: Soroush Seifi, Abhishek Jha, Tinne Tuytelaars
- Abstract要約: アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
- 参考スコア(独自算出の注目度): 47.01485765231528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active visual exploration aims to assist an agent with a limited field of
view to understand its environment based on partial observations made by
choosing the best viewing directions in the scene. Recent methods have tried to
address this problem either by using reinforcement learning, which is difficult
to train, or by uncertainty maps, which are task-specific and can only be
implemented for dense prediction tasks. In this paper, we propose the
Glimpse-Attend-and-Explore model which: (a) employs self-attention to guide the
visual exploration instead of task-specific uncertainty maps; (b) can be used
for both dense and sparse prediction tasks; and (c) uses a contrastive stream
to further improve the representations learned. Unlike previous works, we show
the application of our model on multiple tasks like reconstruction,
segmentation and classification. Our model provides encouraging results while
being less dependent on dataset bias in driving the exploration. We further
perform an ablation study to investigate the features and attention learned by
our model. Finally, we show that our self-attention module learns to attend
different regions of the scene by minimizing the loss on the downstream task.
Code: https://github.com/soroushseifi/glimpse-attend-explore.
- Abstract(参考訳): 能動型視覚探索は,視覚的視野の限られたエージェントが,シーン内で最高の視聴方向を選択した部分的な観察に基づいて環境を理解するのを支援することを目的としている。
最近の手法では、トレーニングが難しい強化学習や、タスク固有で密集した予測タスクにしか実装できない不確実性マップを用いることで、この問題に対処しようと試みている。
本稿では, (a) タスク固有の不確実性マップではなく, 視覚探索をガイドするために自己注意を用いる, (b) 濃密かつスパースな予測タスクに使用できる, (c) コントラストストリームを用いて学習した表現をさらに改善するモデルを提案する。
従来の研究と異なり,再現,セグメント化,分類といった複数のタスクにおけるモデルの適用例を示す。
私たちのモデルは、調査を進める上でデータセットのバイアスに依存せず、成果を奨励するものです。
さらに,本モデルで学習した特徴と注意度を調べるためのアブレーション研究を行った。
最後に,ダウンストリームタスクの損失を最小化することで,シーンの異なる領域への出席を学習することを示す。
コード: https://github.com/soroushseifi/glimpse-attend-explore。
関連論文リスト
- Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Learning to Explore Informative Trajectories and Samples for Embodied
Perception [24.006056116516618]
未知の実施課題に対する知覚モデルの一般化は不十分である。
探索政策を自己管理する3次元意味分布マップを構築した。
そこで本研究では, 意味的分布の不確実性に基づいて, トラジェクトリのハードサンプルを選択することを提案する。
実験により,本手法で微調整した知覚モデルは,他の探索政策で訓練したベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T08:20:04Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。