論文の概要: Exploring Self-Attention for Visual Intersection Classification
- arxiv url: http://arxiv.org/abs/2203.13977v1
- Date: Sat, 26 Mar 2022 03:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:42:17.763183
- Title: Exploring Self-Attention for Visual Intersection Classification
- Title(参考訳): 視覚的断面分類のための自己注意の探索
- Authors: Haruki Nakata, Kanji Tanaka, and Koji Takeda
- Abstract要約: ロボットビジョンでは、非局所的なコンテキストをキャプチャする技術として、自己注意が最近出現している。
本研究では,シーンの背後にある非局所的な文脈をキャプチャする手法として,交差点認識システムに自己認識機構を導入した。
公的なKITTIデータセットを用いた実験では、上記の自己注意に基づくシステムは、局所パターンに基づく従来の認識よりも優れていた。
- 参考スコア(独自算出の注目度): 5.161531917413708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robot vision, self-attention has recently emerged as a technique for
capturing non-local contexts. In this study, we introduced a self-attention
mechanism into the intersection recognition system as a method to capture the
non-local contexts behind the scenes. An intersection classification system
comprises two distinctive modules: (a) a first-person vision (FPV) module,
which uses a short egocentric view sequence as the intersection is passed, and
(b) a third-person vision (TPV) module, which uses a single view immediately
before entering the intersection. The self-attention mechanism is effective in
the TPV module because most parts of the local pattern (e.g., road edges,
buildings, and sky) are similar to each other, and thus the use of a non-local
context (e.g., the angle between two diagonal corners around an intersection)
would be effective. This study makes three major contributions. First, we
proposed a self-attention-based approach for intersection classification using
TPVs. Second, we presented a practical system in which a self-attention-based
TPV module is combined with an FPV module to improve the overall recognition
performance. Finally, experiments using the public KITTI dataset show that the
above self-attention-based system outperforms conventional recognition based on
local patterns and recognition based on convolution operations.
- Abstract(参考訳): ロボットビジョンにおいて、非局所的なコンテキストをキャプチャする技術として自己注意が最近登場した。
本研究では,シーンの背後にある非局所的な文脈を捉える手法として,交差点認識システムに自己アテンション機構を導入した。
交差分類システムには2つの異なるモジュールがある。
(a)交差点を通過する際に短い自我中心のビューシーケンスを使用する一対人視覚(FPV)モジュール
(b)交差点に入る直前に1つのビューを使用する第三者ビジョン(tpv)モジュール。
自己注意機構は、局所的なパターン(道路の端、建物、空など)の大部分が互いに似ているため、TPVモジュールにおいて有効であり、非局所的なコンテキスト(例えば、交差点周辺の2つの対角角の間の角度)を使用することが効果的である。
この研究には3つの大きな貢献がある。
まず,TPVを用いた交差点分類のための自己注意に基づく手法を提案する。
第2に,自己注意型TPVモジュールをFPVモジュールと組み合わせて全体の認識性能を向上させる実用的なシステムを提案する。
最後に, 公開kittiデータセットを用いた実験により, 局所パターンに基づく従来の認識と畳み込み操作に基づく認識を上回った。
関連論文リスト
- X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文 参考訳(メタデータ) (2022-10-13T06:42:46Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Novelty Detection and Analysis of Traffic Scenario Infrastructures in
the Latent Space of a Vision Transformer-Based Triplet Autoencoder [12.194597074511863]
インフラストラクチャイメージに基づいて新たなトラフィックシナリオを検出する手法を提案する。
オートエンコーダ三重項ネットワークは、外乱検出に使用されるインフラストラクチャイメージの潜在表現を提供する。
提案手法は他の最先端の異常検出手法よりも優れている。
論文 参考訳(メタデータ) (2021-05-05T08:24:03Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。