論文の概要: Fast and Efficient Scene Categorization for Autonomous Driving using
VAEs
- arxiv url: http://arxiv.org/abs/2210.14981v1
- Date: Wed, 26 Oct 2022 18:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:09:28.683398
- Title: Fast and Efficient Scene Categorization for Autonomous Driving using
VAEs
- Title(参考訳): vaesを用いた自律走行の高速かつ効率的なシーン分類
- Authors: Saravanabalagi Ramachandran, Jonathan Horgan, Ganesh Sistu, and John
McDonald
- Abstract要約: シーン分類は、高度なコンピュータビジョンタスクの事前知識を提供する有用な前駆的タスクである。
画像から粗い特徴を捉えるグローバルな記述子を生成し、分類ヘッドを用いて記述子を3つのシーン(農村、都市、郊外)にマップする。
提案するグローバルディスクリプタは非常にコンパクトで、埋め込み長は128であり、計算がかなり高速で、季節や不純物の変化に対して堅牢である。
- 参考スコア(独自算出の注目度): 2.694218293356451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene categorization is a useful precursor task that provides prior knowledge
for many advanced computer vision tasks with a broad range of applications in
content-based image indexing and retrieval systems. Despite the success of data
driven approaches in the field of computer vision such as object detection,
semantic segmentation, etc., their application in learning high-level features
for scene recognition has not achieved the same level of success. We propose to
generate a fast and efficient intermediate interpretable generalized global
descriptor that captures coarse features from the image and use a
classification head to map the descriptors to 3 scene categories: Rural, Urban
and Suburban. We train a Variational Autoencoder in an unsupervised manner and
map images to a constrained multi-dimensional latent space and use the latent
vectors as compact embeddings that serve as global descriptors for images. The
experimental results evidence that the VAE latent vectors capture coarse
information from the image, supporting their usage as global descriptors. The
proposed global descriptor is very compact with an embedding length of 128,
significantly faster to compute, and is robust to seasonal and illuminational
changes, while capturing sufficient scene information required for scene
categorization.
- Abstract(参考訳): シーン分類は、多くの高度なコンピュータビジョンタスクに対する事前知識を提供する有用な前駆的タスクであり、コンテンツベースの画像インデックスと検索システムに幅広い応用がある。
オブジェクト検出やセマンティックセグメンテーションなどのコンピュータビジョン分野におけるデータ駆動アプローチの成功にもかかわらず、シーン認識のための高レベルな特徴の学習への応用は、同じレベルの成功を収めていない。
本研究では,画像から粗い特徴をキャプチャし,分類ヘッドを用いて,農村,都市,郊外の3つのシーンカテゴリに分類する,高速かつ効率的な中間解釈可能な一般化グローバルディスクリプタの生成を提案する。
非教師なしの方法で変分オートエンコーダを訓練し、制約付き多次元潜在空間に画像をマッピングし、その潜在ベクトルを画像のグローバルディスクリプタとして機能するコンパクト埋め込みとして利用する。
実験結果から,VOE潜伏ベクトルは画像から粗い情報を捕捉し,グローバルディスクリプタとしての利用をサポートすることが示された。
提案するグローバルディスクリプタは, 埋め込み長が128で, 計算が著しく高速で, 季節や不純物の変化に対して堅牢であり, シーン分類に必要なシーン情報を収集できる。
関連論文リスト
- LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning [0.0]
LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを導入する。
LDCAは、適応的グローバルな文脈拡張モジュールを活用することで、局所的およびグローバルな理解のギャップを埋める。
実験により,本手法の有効性を実証し,粒度分類データセットの次ベストに対して最大20%の絶対的改善を示した。
論文 参考訳(メタデータ) (2024-01-24T14:44:48Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Learning-Based Dimensionality Reduction for Computing Compact and
Effective Local Feature Descriptors [101.62384271200169]
特徴の形でのイメージパッチの独特な表現は多くのコンピュータビジョンとロボティクスのタスクの重要な構成要素である。
マルチ層パーセプトロン(MLP)を用いて,低次元ながら高品質な記述子を抽出する。
視覚的ローカライゼーション、パッチ検証、画像マッチング、検索など、さまざまなアプリケーションについて検討する。
論文 参考訳(メタデータ) (2022-09-27T17:59:04Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - A Novel Image Descriptor with Aggregated Semantic Skeleton
Representation for Long-term Visual Place Recognition [0.0]
集合的意味骨格表現(SSR)を用いた新しい画像記述法を提案する。
1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。
我々は,挑戦的な都市景観の3つの公開データセットについて,一連の実験を行った。
論文 参考訳(メタデータ) (2022-02-08T06:49:38Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。