論文の概要: Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation)
- arxiv url: http://arxiv.org/abs/2108.05888v1
- Date: Thu, 12 Aug 2021 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:30:10.108912
- Title: Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation)
- Title(参考訳): シャドウトランスを用いたマルチビュー検出(及びビューコヒーレントデータ拡張)
- Authors: Yunzhong Hou and Liang Zheng
- Abstract要約: 本稿では,マルチビュー情報を集約するシャドートランスを用いた新しいマルチビュー検出器MVDeTrを提案する。
畳み込みとは異なり、シャドートランスフォーマーは様々な位置やカメラで様々な影のような歪みに対処する。
本報告では,提案方式による最新の精度について報告する。
- 参考スコア(独自算出の注目度): 25.598840284457548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiview detection incorporates multiple camera views to deal with
occlusions, and its central problem is multiview aggregation. Given feature map
projections from multiple views onto a common ground plane, the
state-of-the-art method addresses this problem via convolution, which applies
the same calculation regardless of object locations. However, such
translation-invariant behaviors might not be the best choice, as object
features undergo various projection distortions according to their positions
and cameras. In this paper, we propose a novel multiview detector, MVDeTr, that
adopts a newly introduced shadow transformer to aggregate multiview
information. Unlike convolutions, shadow transformer attends differently at
different positions and cameras to deal with various shadow-like distortions.
We propose an effective training scheme that includes a new view-coherent data
augmentation method, which applies random augmentations while maintaining
multiview consistency. On two multiview detection benchmarks, we report new
state-of-the-art accuracy with the proposed system. Code is available at
https://github.com/hou-yz/MVDeTr.
- Abstract(参考訳): マルチビュー検出には複数のカメラビューが組み込まれており、その中心的な問題はマルチビューアグリゲーションである。
複数のビューから共通の接地面に特徴写像を投影すると、最先端の手法は畳み込みによってこの問題に対処し、オブジェクトの位置に関係なく同じ計算を適用できる。
しかし、このような翻訳不変の挙動は、物体の位置やカメラに応じて様々な投影歪みを受けるため、最善の選択ではないかもしれない。
本稿では,新たに導入されたシャドウトランスフォーマを使用してマルチビュー情報を集約する,新しいマルチビュー検出器mvdetrを提案する。
畳み込みとは異なり、シャドウトランスフォーマーは異なる位置やカメラで様々なシャドウのような歪みを扱う。
マルチビュー整合性を維持しながらランダムな拡張を適用する新しいビューコヒーレントデータ拡張手法を含む効果的なトレーニング手法を提案する。
2つのマルチビュー検出ベンチマークにおいて,提案システムを用いた最新の精度について報告する。
コードはhttps://github.com/hou-yz/mvdetrで入手できる。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。
まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。
トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文 参考訳(メタデータ) (2023-08-17T14:14:28Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Two-level Data Augmentation for Calibrated Multi-view Detection [51.5746691103591]
ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。
また,シーンレベルで直接適用された第2レベルの拡張を提案する。
単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
論文 参考訳(メタデータ) (2022-10-19T17:55:13Z) - Voxelized 3D Feature Aggregation for Multiview Detection [15.465855460519446]
VFA, Voxelized 3D feature aggregate, for feature transformation and aggregate in multi-view detection。
具体的には、3D空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2D機能とこれらプロジェクションされたボクセルを関連付ける。
これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。
論文 参考訳(メタデータ) (2021-12-07T03:38:50Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。