論文の概要: EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera
Relocalization
- arxiv url: http://arxiv.org/abs/2402.13537v1
- Date: Wed, 21 Feb 2024 05:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:57:42.943331
- Title: EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera
Relocalization
- Title(参考訳): effloc: 6自由度カメラ再ローカライズのための軽量視覚トランスフォーマー
- Authors: Zhendong Xiao, Changhao Chen, Shan Yang, Wu Wei
- Abstract要約: EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。
EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。
大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失関数をなくす。
- 参考スコア(独自算出の注目度): 12.980447668368274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera relocalization is pivotal in computer vision, with applications in AR,
drones, robotics, and autonomous driving. It estimates 3D camera position and
orientation (6-DoF) from images. Unlike traditional methods like SLAM, recent
strides use deep learning for direct end-to-end pose estimation. We propose
EffLoc, a novel efficient Vision Transformer for single-image camera
relocalization. EffLoc's hierarchical layout, memory-bound self-attention, and
feed-forward layers boost memory efficiency and inter-channel communication.
Our introduced sequential group attention (SGA) module enhances computational
efficiency by diversifying input features, reducing redundancy, and expanding
model capacity. EffLoc excels in efficiency and accuracy, outperforming prior
methods, such as AtLoc and MapNet. It thrives on large-scale outdoor
car-driving scenario, ensuring simplicity, end-to-end trainability, and
eliminating handcrafted loss functions.
- Abstract(参考訳): カメラのリローカライゼーションは、AR、ドローン、ロボティクス、自動運転など、コンピュータビジョンにおいて重要な役割を担っている。
画像から3Dカメラの位置と方向(6-DoF)を推定する。
SLAMのような従来の方法とは異なり、最近の進歩はエンドツーエンドのポーズ推定にディープラーニングを使用している。
EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。
efflocの階層レイアウト、メモリバウンドセルフアテンション、フィードフォワード層は、メモリ効率とチャネル間通信を促進する。
提案する逐次グループアテンション(SGA)モジュールは,入力特徴を多様化し,冗長性を低減し,モデル容量を拡大することにより,計算効率を向上させる。
EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。
大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失機能を排除する。
関連論文リスト
- VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [62.6737516863285]
VideoLifterは、ビデオシーケンスから直接、グローバルスパースから高密度な3D表現に漸進的に最適化する新しいフレームワークである。
フレームやフラグメント間のスパースポイント対応の追跡と伝播によって、VideoLifterはカメラのポーズと3D構造を徐々に洗練する。
このアプローチは、視覚的忠実度と計算効率において、現在の最先端の手法を超越しながら、トレーニング時間を82%以上短縮する。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - Improved Single Camera BEV Perception Using Multi-Camera Training [4.003066044908734]
大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。
これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。
本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
論文 参考訳(メタデータ) (2024-09-04T13:06:40Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。
nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
論文 参考訳(メタデータ) (2024-03-16T22:01:55Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - A Flexible Framework for Virtual Omnidirectional Vision to Improve
Operator Situation Awareness [2.817412580574242]
本稿では,ロボットのどこに設置した複数のカメラを融合させる新しい手法に基づいて,仮想プロジェクションのためのフレキシブルなフレームワークを提案する。
カメラ画像と幾何学的3Dライダーデータを融合させることでシーン理解を改善するための補完的なアプローチを提案し,色付き点雲を得る。
論文 参考訳(メタデータ) (2023-02-01T10:40:05Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。