論文の概要: EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera
Relocalization
- arxiv url: http://arxiv.org/abs/2402.13537v1
- Date: Wed, 21 Feb 2024 05:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:57:42.943331
- Title: EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera
Relocalization
- Title(参考訳): effloc: 6自由度カメラ再ローカライズのための軽量視覚トランスフォーマー
- Authors: Zhendong Xiao, Changhao Chen, Shan Yang, Wu Wei
- Abstract要約: EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。
EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。
大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失関数をなくす。
- 参考スコア(独自算出の注目度): 12.980447668368274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera relocalization is pivotal in computer vision, with applications in AR,
drones, robotics, and autonomous driving. It estimates 3D camera position and
orientation (6-DoF) from images. Unlike traditional methods like SLAM, recent
strides use deep learning for direct end-to-end pose estimation. We propose
EffLoc, a novel efficient Vision Transformer for single-image camera
relocalization. EffLoc's hierarchical layout, memory-bound self-attention, and
feed-forward layers boost memory efficiency and inter-channel communication.
Our introduced sequential group attention (SGA) module enhances computational
efficiency by diversifying input features, reducing redundancy, and expanding
model capacity. EffLoc excels in efficiency and accuracy, outperforming prior
methods, such as AtLoc and MapNet. It thrives on large-scale outdoor
car-driving scenario, ensuring simplicity, end-to-end trainability, and
eliminating handcrafted loss functions.
- Abstract(参考訳): カメラのリローカライゼーションは、AR、ドローン、ロボティクス、自動運転など、コンピュータビジョンにおいて重要な役割を担っている。
画像から3Dカメラの位置と方向(6-DoF)を推定する。
SLAMのような従来の方法とは異なり、最近の進歩はエンドツーエンドのポーズ推定にディープラーニングを使用している。
EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。
efflocの階層レイアウト、メモリバウンドセルフアテンション、フィードフォワード層は、メモリ効率とチャネル間通信を促進する。
提案する逐次グループアテンション(SGA)モジュールは,入力特徴を多様化し,冗長性を低減し,モデル容量を拡大することにより,計算効率を向上させる。
EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。
大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失機能を排除する。
関連論文リスト
- Improved Single Camera BEV Perception Using Multi-Camera Training [4.003066044908734]
大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。
これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。
本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
論文 参考訳(メタデータ) (2024-09-04T13:06:40Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - A Flexible Framework for Virtual Omnidirectional Vision to Improve
Operator Situation Awareness [2.817412580574242]
本稿では,ロボットのどこに設置した複数のカメラを融合させる新しい手法に基づいて,仮想プロジェクションのためのフレキシブルなフレームワークを提案する。
カメラ画像と幾何学的3Dライダーデータを融合させることでシーン理解を改善するための補完的なアプローチを提案し,色付き点雲を得る。
論文 参考訳(メタデータ) (2023-02-01T10:40:05Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Multi-Camera Calibration Free BEV Representation for 3D Object Detection [8.085831393926561]
我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。
CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする
CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
論文 参考訳(メタデータ) (2022-10-31T12:18:08Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。