論文の概要: Embodied Learning for Lifelong Visual Perception
- arxiv url: http://arxiv.org/abs/2112.14084v1
- Date: Tue, 28 Dec 2021 10:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:24:40.882686
- Title: Embodied Learning for Lifelong Visual Perception
- Title(参考訳): 生涯視覚知覚のための体得学習
- Authors: David Nilsson, Aleksis Pirinen, Erik G\"artner, Cristian Sminchisescu
- Abstract要約: 我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
- 参考スコア(独自算出の注目度): 33.02424587900808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study lifelong visual perception in an embodied setup, where we develop
new models and compare various agents that navigate in buildings and
occasionally request annotations which, in turn, are used to refine their
visual perception capabilities. The purpose of the agents is to recognize
objects and other semantic classes in the whole building at the end of a
process that combines exploration and active visual learning. As we study this
task in a lifelong learning context, the agents should use knowledge gained in
earlier visited environments in order to guide their exploration and active
learning strategy in successively visited buildings. We use the semantic
segmentation performance as a proxy for general visual perception and study
this novel task for several exploration and annotation methods, ranging from
frontier exploration baselines which use heuristic active learning, to a fully
learnable approach. For the latter, we introduce a deep reinforcement learning
(RL) based agent which jointly learns both navigation and active learning. A
point goal navigation formulation, coupled with a global planner which supplies
goals, is integrated into the RL model in order to provide further incentives
for systematic exploration of novel scenes. By performing extensive experiments
on the Matterport3D dataset, we show how the proposed agents can utilize
knowledge from previously explored scenes when exploring new ones, e.g. through
less granular exploration and less frequent requests for annotations. The
results also suggest that a learning-based agent is able to use its prior
visual knowledge more effectively than heuristic alternatives.
- Abstract(参考訳): そこで我々は、新しいモデルを開発し、建物内をナビゲートする様々なエージェントを比較し、時々アノテーションを要求し、それによって視覚知覚能力を洗練させる。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
この課題を生涯学習の文脈で研究する際, エージェントは, 来訪した建物を探索し, 積極的学習戦略を導出するために, 先行来訪した環境から得た知識を活用すべきである。
我々は,一般視覚知覚の指標として意味セグメンテーション性能を用い,ヒューリスティックアクティブラーニングを用いたフロンティア探索ベースラインから完全学習可能なアプローチまで,いくつかの探索およびアノテーション手法について検討した。
後者については,ナビゲーションとアクティブラーニングを共同で学習する,深層強化学習(rl)ベースのエージェントを導入する。
ポイントゴールナビゲーションの定式化と、ゴールを提供するグローバルプランナーが組み合わさって、新規シーンの体系的な探索のためのさらなるインセンティブを提供するために、RLモデルに統合される。
Matterport3Dデータセットで広範な実験を行うことで、提案するエージェントは、例えば、より粒度の細かい探索やアノテーションの要求の少なさなど、新しい領域を探索する際に、これまで探索されたシーンから知識を活用することができることを示す。
また,学習に基づくエージェントが,ヒューリスティックな代替手段よりも視覚的知識を効果的に活用できることが示唆された。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。