論文の概要: Two-level Data Augmentation for Calibrated Multi-view Detection
- arxiv url: http://arxiv.org/abs/2210.10756v1
- Date: Wed, 19 Oct 2022 17:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:34:08.406480
- Title: Two-level Data Augmentation for Calibrated Multi-view Detection
- Title(参考訳): キャリブレーションマルチビュー検出のための2レベルデータ拡張
- Authors: Martin Engilberge, Haixin Shi, Zhiye Wang, Pascal Fua
- Abstract要約: ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。
また,シーンレベルで直接適用された第2レベルの拡張を提案する。
単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
- 参考スコア(独自算出の注目度): 51.5746691103591
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data augmentation has proven its usefulness to improve model generalization
and performance. While it is commonly applied in computer vision application
when it comes to multi-view systems, it is rarely used. Indeed geometric data
augmentation can break the alignment among views. This is problematic since
multi-view data tend to be scarce and it is expensive to annotate. In this work
we propose to solve this issue by introducing a new multi-view data
augmentation pipeline that preserves alignment among views. Additionally to
traditional augmentation of the input image we also propose a second level of
augmentation applied directly at the scene level. When combined with our simple
multi-view detection model, our two-level augmentation pipeline outperforms all
existing baselines by a significant margin on the two main multi-view
multi-person detection datasets WILDTRACK and MultiviewX.
- Abstract(参考訳): データ拡張はモデルの一般化と性能を改善するのに有用であることが証明されている。
マルチビューシステムの場合、コンピュータビジョンアプリケーションで一般的に使用されるが、滅多に使われない。
実際、幾何学的データ拡張はビュー間のアライメントを損なう可能性がある。
マルチビューデータは少ない傾向にあり、注釈をつけるのにコストがかかるため、これは問題となる。
本研究では,ビュー間のアライメントを保ちつつ,新たなマルチビューデータ拡張パイプラインを導入することで,この問題を解決することを提案する。
入力画像の従来の拡張に加えて,シーンレベルで直接適用される第2レベルの拡張も提案する。
単純なマルチビュー検出モデルと組み合わせると、2レベル拡張パイプラインは、wildtrackとmultiviewxの2つの主要なマルチビューマルチパーソン検出データセットにおいて、既存のすべてのベースラインをかなりのマージンで上回ります。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Hypergraph-based Multi-View Action Recognition using Event Cameras [20.965606424362726]
マルチビューイベントベースのアクション認識フレームワークであるHyperMVを紹介する。
我々は6つの視点から50のアクションからなる、最も大きなマルチビューイベントベースのアクションデータセットである$textTHUtextMV-EACTtext-50$を提示する。
実験の結果,HyperMVはクロスオブジェクトとクロスビューの両方のシナリオにおいて,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-03-28T11:17:00Z) - Debunking Free Fusion Myth: Online Multi-view Anomaly Detection with
Disentangled Product-of-Experts Modeling [25.02446577349165]
マルチビューやマルチモーダルデータさえも、現実世界のアプリケーションには魅力的なものです。
本稿では,(1)多視点データに対処するProduct-of-Experts層,(2)ビュー共通表現とビュー固有表現を混在させるTotal Correction Discriminator,(3)すべてのコンポーネントをラップするジョイントロス関数を含む,新しい多視点変分自動符号化モデルdPoEを提案する。
論文 参考訳(メタデータ) (2023-10-28T15:14:43Z) - Hierarchical Mutual Information Analysis: Towards Multi-view Clustering
in The Wild [9.380271109354474]
この研究は、データリカバリとアライメントを階層的に一貫した方法で融合し、異なるビュー間の相互情報を最大化するディープMVCフレームワークを提案する。
私たちの知る限りでは、これは欠落したデータ問題と不整合データ問題に異なる学習パラダイムで別々に対処する最初の試みになるかもしれません。
論文 参考訳(メタデータ) (2023-10-28T06:43:57Z) - Multi-view Fuzzy Representation Learning with Rules based Model [25.997490574254172]
教師なしマルチビュー表現学習は、マルチビューデータをマイニングするために広く研究されている。
本稿では,MVRL_FSを用いた多視点ファジィ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T17:13:15Z) - Credible Remote Sensing Scene Classification Using Evidential Fusion on
Aerial-Ground Dual-view Images [6.817740582240199]
マルチビュー(マルチソース、マルチモーダル、マルチパースペクティブなど)データはリモートセンシングタスクで頻繁に使用される。
データ品質の問題はさらに明確になり、マルチビューデータの潜在的なメリットが制限される。
深層学習は空中二視点リモートセンシングシーン分類の課題に導入される。
論文 参考訳(メタデータ) (2023-01-02T12:27:55Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。