論文の概要: Embodied Visual Active Learning for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2012.09503v1
- Date: Thu, 17 Dec 2020 11:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:24:35.264932
- Title: Embodied Visual Active Learning for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのための具体化ビジュアルアクティブラーニング
- Authors: David Nilsson, Aleksis Pirinen, Erik G\"artner, Cristian Sminchisescu
- Abstract要約: 本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 33.02424587900808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the task of embodied visual active learning, where an agent is set
to explore a 3d environment with the goal to acquire visual scene understanding
by actively selecting views for which to request annotation. While accurate on
some benchmarks, today's deep visual recognition pipelines tend to not
generalize well in certain real-world scenarios, or for unusual viewpoints.
Robotic perception, in turn, requires the capability to refine the recognition
capabilities for the conditions where the mobile system operates, including
cluttered indoor environments or poor illumination. This motivates the proposed
task, where an agent is placed in a novel environment with the objective of
improving its visual recognition capability. To study embodied visual active
learning, we develop a battery of agents - both learnt and pre-specified - and
with different levels of knowledge of the environment. The agents are equipped
with a semantic segmentation network and seek to acquire informative views,
move and explore in order to propagate annotations in the neighbourhood of
those views, then refine the underlying segmentation network by online
retraining. The trainable method uses deep reinforcement learning with a reward
function that balances two competing objectives: task performance, represented
as visual recognition accuracy, which requires exploring the environment, and
the necessary amount of annotated data requested during active exploration. We
extensively evaluate the proposed models using the photorealistic Matterport3D
simulator and show that a fully learnt method outperforms comparable
pre-specified counterparts, even when requesting fewer annotations.
- Abstract(参考訳): エージェントが3次元環境を探索し、アノテーションを要求するビューを積極的に選択することで視覚的シーン理解を得ることを目的として、視覚的能動学習の課題について検討する。
一部のベンチマークでは正確だが、今日のディープビジュアル認識パイプラインは、特定の現実世界のシナリオや異常な視点ではうまく一般化しない傾向がある。
ロボットの知覚は、屋内環境の混乱や照明不足など、モバイルシステムの動作状況の認識能力を洗練する能力を必要としている。
これにより,エージェントを視覚認識能力の向上を目的とした新しい環境に配置するタスクが提案される。
視覚活動学習の具体化を研究するため,環境に関する知識の異なるエージェント(学習と事前特定の両方)の電池を開発する。
エージェントはセマンティックセグメンテーションネットワークを備えており、それらのビューの周辺でアノテーションを広めるために情報的ビューを取得し、移動し、探索し、オンラインリトレーニングによって基礎となるセグメンテーションネットワークを洗練させる。
トレーニング可能な方法は、深層強化学習を使用して、2つの競合する目標、すなわち、視覚認識精度として表現されるタスクのパフォーマンスと、アクティブな探索中に要求される必要量のアノテートされたデータとをバランスさせる。
本稿では,フォトリアリスティックなMatterport3Dシミュレータを用いて提案手法を広範囲に評価し,より少ないアノテーションを要求しても,完全に学習した手法が比較対象よりも優れていることを示す。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文 参考訳(メタデータ) (2021-12-28T10:47:13Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。