Fugu-MT 論文翻訳(概要): EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera Relocalization

論文の概要: EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera Relocalization

arxiv url: http://arxiv.org/abs/2402.13537v1
Date: Wed, 21 Feb 2024 05:26:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:57:42.943331
Title: EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera Relocalization
Title（参考訳）: effloc: 6自由度カメラ再ローカライズのための軽量視覚トランスフォーマー
Authors: Zhendong Xiao, Changhao Chen, Shan Yang, Wu Wei
Abstract要約: EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。 EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失関数をなくす。
参考スコア（独自算出の注目度）: 12.980447668368274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Camera relocalization is pivotal in computer vision, with applications in AR, drones, robotics, and autonomous driving. It estimates 3D camera position and orientation (6-DoF) from images. Unlike traditional methods like SLAM, recent strides use deep learning for direct end-to-end pose estimation. We propose EffLoc, a novel efficient Vision Transformer for single-image camera relocalization. EffLoc's hierarchical layout, memory-bound self-attention, and feed-forward layers boost memory efficiency and inter-channel communication. Our introduced sequential group attention (SGA) module enhances computational efficiency by diversifying input features, reducing redundancy, and expanding model capacity. EffLoc excels in efficiency and accuracy, outperforming prior methods, such as AtLoc and MapNet. It thrives on large-scale outdoor car-driving scenario, ensuring simplicity, end-to-end trainability, and eliminating handcrafted loss functions.
Abstract（参考訳）: カメラのリローカライゼーションは、AR、ドローン、ロボティクス、自動運転など、コンピュータビジョンにおいて重要な役割を担っている。画像から3Dカメラの位置と方向(6-DoF)を推定する。 SLAMのような従来の方法とは異なり、最近の進歩はエンドツーエンドのポーズ推定にディープラーニングを使用している。 EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。 efflocの階層レイアウト、メモリバウンドセルフアテンション、フィードフォワード層は、メモリ効率とチャネル間通信を促進する。提案する逐次グループアテンション(SGA)モジュールは,入力特徴を多様化し,冗長性を低減し,モデル容量を拡大することにより,計算効率を向上させる。 EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失機能を排除する。

関連論文リスト

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [63.21396416244634]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文参考訳（メタデータ） (2025-01-03T18:52:36Z)
Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。 Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。 7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文参考訳（メタデータ） (2024-11-27T18:30:08Z)
Improved Single Camera BEV Perception Using Multi-Camera Training [4.003066044908734]
大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
論文参考訳（メタデータ） (2024-09-04T13:06:40Z)
VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文参考訳（メタデータ） (2024-03-25T17:47:03Z)
EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。 nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
論文参考訳（メタデータ） (2024-03-16T22:01:55Z)
AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文参考訳（メタデータ） (2023-03-02T21:24:19Z)
A Flexible Framework for Virtual Omnidirectional Vision to Improve Operator Situation Awareness [2.817412580574242]
本稿では,ロボットのどこに設置した複数のカメラを融合させる新しい手法に基づいて,仮想プロジェクションのためのフレキシブルなフレームワークを提案する。カメラ画像と幾何学的3Dライダーデータを融合させることでシーン理解を改善するための補完的なアプローチを提案し,色付き点雲を得る。
論文参考訳（メタデータ） (2023-02-01T10:40:05Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
Multi-Camera Calibration Free BEV Representation for 3D Object Detection [8.085831393926561]
我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。 CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
論文参考訳（メタデータ） (2022-10-31T12:18:08Z)
Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。 Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文参考訳（メタデータ） (2022-08-25T17:59:00Z)
Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文参考訳（メタデータ） (2021-12-21T18:52:33Z)
CNN-based Omnidirectional Object Detection for HermesBot Autonomous Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文参考訳（メタデータ） (2021-10-22T15:05:37Z)
TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。 TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文参考訳（メタデータ） (2021-05-28T19:08:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。