論文の概要: Embodied Visual Active Learning for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2012.09503v1
- Date: Thu, 17 Dec 2020 11:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:24:35.264932
- Title: Embodied Visual Active Learning for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのための具体化ビジュアルアクティブラーニング
- Authors: David Nilsson, Aleksis Pirinen, Erik G\"artner, Cristian Sminchisescu
- Abstract要約: 本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 33.02424587900808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the task of embodied visual active learning, where an agent is set
to explore a 3d environment with the goal to acquire visual scene understanding
by actively selecting views for which to request annotation. While accurate on
some benchmarks, today's deep visual recognition pipelines tend to not
generalize well in certain real-world scenarios, or for unusual viewpoints.
Robotic perception, in turn, requires the capability to refine the recognition
capabilities for the conditions where the mobile system operates, including
cluttered indoor environments or poor illumination. This motivates the proposed
task, where an agent is placed in a novel environment with the objective of
improving its visual recognition capability. To study embodied visual active
learning, we develop a battery of agents - both learnt and pre-specified - and
with different levels of knowledge of the environment. The agents are equipped
with a semantic segmentation network and seek to acquire informative views,
move and explore in order to propagate annotations in the neighbourhood of
those views, then refine the underlying segmentation network by online
retraining. The trainable method uses deep reinforcement learning with a reward
function that balances two competing objectives: task performance, represented
as visual recognition accuracy, which requires exploring the environment, and
the necessary amount of annotated data requested during active exploration. We
extensively evaluate the proposed models using the photorealistic Matterport3D
simulator and show that a fully learnt method outperforms comparable
pre-specified counterparts, even when requesting fewer annotations.
- Abstract(参考訳): エージェントが3次元環境を探索し、アノテーションを要求するビューを積極的に選択することで視覚的シーン理解を得ることを目的として、視覚的能動学習の課題について検討する。
一部のベンチマークでは正確だが、今日のディープビジュアル認識パイプラインは、特定の現実世界のシナリオや異常な視点ではうまく一般化しない傾向がある。
ロボットの知覚は、屋内環境の混乱や照明不足など、モバイルシステムの動作状況の認識能力を洗練する能力を必要としている。
これにより,エージェントを視覚認識能力の向上を目的とした新しい環境に配置するタスクが提案される。
視覚活動学習の具体化を研究するため,環境に関する知識の異なるエージェント(学習と事前特定の両方)の電池を開発する。
エージェントはセマンティックセグメンテーションネットワークを備えており、それらのビューの周辺でアノテーションを広めるために情報的ビューを取得し、移動し、探索し、オンラインリトレーニングによって基礎となるセグメンテーションネットワークを洗練させる。
トレーニング可能な方法は、深層強化学習を使用して、2つの競合する目標、すなわち、視覚認識精度として表現されるタスクのパフォーマンスと、アクティブな探索中に要求される必要量のアノテートされたデータとをバランスさせる。
本稿では,フォトリアリスティックなMatterport3Dシミュレータを用いて提案手法を広範囲に評価し,より少ないアノテーションを要求しても,完全に学習した手法が比較対象よりも優れていることを示す。
関連論文リスト
- An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文 参考訳(メタデータ) (2021-12-28T10:47:13Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Exploring Visual Engagement Signals for Representation Learning [56.962033268934015]
VisEは、クラスタ化されたエンゲージメント信号から派生した擬似ラベルにソーシャルイメージをマップする弱い教師付き学習アプローチである。
この方法でトレーニングされたモデルが、感情認識や政治的バイアス検出といった主観的なコンピュータビジョンタスクにどのように役立つかを研究する。
論文 参考訳(メタデータ) (2021-04-15T20:50:40Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。