論文の概要: Attend and Segment: Attention Guided Active Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2007.11548v1
- Date: Wed, 22 Jul 2020 17:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 23:06:50.468542
- Title: Attend and Segment: Attention Guided Active Semantic Segmentation
- Title(参考訳): 参加とセグメンテーション:注意誘導能動的意味セグメンテーション
- Authors: Soroush Seifi, Tinne Tuytelaars
- Abstract要約: 本研究では,部分的な観察の順序を考慮に入れたシーンを段階的に分割する手法を提案する。
本手法は,空間記憶マップの保守と活用を目的とした,自己監視型アテンション機構と特化アーキテクチャを含む。
私たちはCityScapes、CamVid、Kittiのデータセットで78.1%、80.9%、76.5%の平均画素精度に達しています。
- 参考スコア(独自算出の注目度): 44.29313588655997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a dynamic environment, an agent with a limited field of view/resource
cannot fully observe the scene before attempting to parse it. The deployment of
common semantic segmentation architectures is not feasible in such settings. In
this paper we propose a method to gradually segment a scene given a sequence of
partial observations. The main idea is to refine an agent's understanding of
the environment by attending the areas it is most uncertain about. Our method
includes a self-supervised attention mechanism and a specialized architecture
to maintain and exploit spatial memory maps for filling-in the unseen areas in
the environment. The agent can select and attend an area while relying on the
cues coming from the visited areas to hallucinate the other parts. We reach a
mean pixel-wise accuracy of 78.1%, 80.9% and 76.5% on CityScapes, CamVid, and
Kitti datasets by processing only 18% of the image pixels (10 retina-like
glimpses). We perform an ablation study on the number of glimpses, input image
size and effectiveness of retina-like glimpses. We compare our method to
several baselines and show that the optimal results are achieved by having
access to a very low resolution view of the scene at the first timestep.
- Abstract(参考訳): 動的環境では、限られた視野/リソースを持つエージェントは、解析を試みる前にシーンを完全に観察することはできない。
このような設定では、共通セマンティックセグメンテーションアーキテクチャのデプロイは不可能である。
本稿では,部分的観測の順序を与えられたシーンを段階的に分割する手法を提案する。
主な考え方は、最も不確実な領域に出席することで、エージェントの環境に対する理解を深めることである。
本手法は, 空間記憶マップを環境中の未確認領域に埋め込むための, 自己監視型アテンション機構と, 特別なアーキテクチャを含む。
エージェントは、訪問したエリアから来る手掛かりを頼りに、エリアを選択して参加でき、他の部分を幻覚することができる。
私たちは、CityScapes、CamVid、Kittiのデータセットで平均78.1%、80.9%、76.5%の精度で画像ピクセルの18%しか処理していない(網膜に似た10点)。
視認回数,入力画像サイズ,網膜的視認の有効性についてアブレーション研究を行った。
本手法を複数のベースラインと比較し,最初のステップで非常に低解像度なシーンのビューにアクセスすることで,最適な結果が得られることを示す。
関連論文リスト
- Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation [39.08243715525956]
Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。
ニューラルレイディアンス場(NeRF)の人気が高まり、暗黙の表現もシーン完了のために人気になった。
本稿では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に変換することを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:30:24Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Audio-Visual Floorplan Reconstruction [87.80748348615643]
環境を少しだけ垣間見るだけで、そのフロアプラン全体についてどれだけ推測できるだろうか?
AV-Mapはマルチモーダルエンコーダ・デコーダ・フレームワークで,音声と視覚を併用して短い入力ビデオシーケンスからフロアプランを再構築する。
私たちの85の大規模な実世界の環境における結果は、その影響を示しています。ある領域の26%にまたがるほんの少しの垣根を見れば、その領域全体を66%の精度で見積もることができるのです。
論文 参考訳(メタデータ) (2020-12-31T07:00:34Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。