論文の概要: Bringing Generalization to Deep Multi-view Detection
- arxiv url: http://arxiv.org/abs/2109.12227v1
- Date: Fri, 24 Sep 2021 23:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 07:30:37.772563
- Title: Bringing Generalization to Deep Multi-view Detection
- Title(参考訳): 深層多視点検出への一般化
- Authors: Jeet Vora, Swetanjal Dutta, Shyamgopal Karthik, Vineet Gandhi
- Abstract要約: マルチビュー検出(MVD)は、様々なアプリケーションにおいて、正確なトップビュー占有率マップを必要とする主要なソリューションである。
本稿では,既存の最先端フレームワークに対する事前学習,プーリング戦略,正規化,損失関数の修正を提案する。
我々は、一般化能力に関するMVD法を評価する必要性を動機付けるために、ワイルドトラックとマルチビューックスデータセットに関する包括的な実験を行う。
- 参考スコア(独自算出の注目度): 5.753786926820733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view Detection (MVD) is highly effective for occlusion reasoning and is
a mainstream solution in various applications that require accurate top-view
occupancy maps. While recent works using deep learning have made significant
advances in the field, they have overlooked the generalization aspect, which
makes them \emph{impractical for real-world deployment}. The key novelty of our
work is to \emph{formalize} three critical forms of generalization and
\emph{propose experiments to investigate them}: i) generalization across a
varying number of cameras, ii) generalization with varying camera positions,
and finally, iii) generalization to new scenes. We find that existing \sota
models show poor generalization by overfitting to a single scene and camera
configuration. We propose modifications in terms of pre-training, pooling
strategy, regularization, and loss function to an existing state-of-the-art
framework, leading to successful generalization across new camera
configurations and new scenes. We perform a comprehensive set of experiments on
the \wildtrack and \multiviewx datasets to (a) motivate the necessity to
evaluate MVD methods on generalization abilities and (b) demonstrate the
efficacy of the proposed approach. The code is publicly available at
\url{https://github.com/jeetv/GMVD}
- Abstract(参考訳): マルチビュー検出(mvd)はオクルージョン推論に非常に効果的であり、正確なトップビュー占有マップを必要とする様々なアプリケーションにおいて主流のソリューションである。
ディープラーニングを用いた最近の研究はこの分野で大きな進歩を遂げているが、彼らは一般化の側面を見落としている。
私たちの研究の重要な新規性は、一般化の3つの重要な形式とそれらを調べるための「emph{propose experiment」である。
一 様々な数のカメラにまたがる一般化
二 様々なカメラ位置の一般化、そして最後に
三 新しい場面への一般化
既存の \sota モデルでは,単一シーンとカメラ構成にオーバーフィットすることで,一般化が不十分であることが判明した。
本稿では,事前トレーニング,プーリング戦略,正規化,損失関数を既存の最先端フレームワークに変更して,新たなカメラ構成と新たなシーンの一般化に成功させる方法を提案する。
我々は,\wildtrack と \multiviewx データセットに対して包括的な実験を行う。
(a)一般化能力とMVD法の評価の必要性を動機づける
b)提案手法の有効性を実証する。
コードは \url{https://github.com/jeetv/GMVD} で公開されている。
関連論文リスト
- Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization [25.772574727405825]
視覚的ローカライゼーションは、ポーズ画像のデータベースに対して、クエリ画像のカメラのポーズを決定することを目的としている。
カメラのポーズを直接回帰するディープニューラルネットワークは、高速な推論能力のために人気を集めている。
textbfReloc3rは、シンプルだが効果的な視覚的ローカライゼーションフレームワークである。
論文 参考訳(メタデータ) (2024-12-11T13:36:18Z) - Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - More is Better: A Novel Multi-view Framework for Domain Generalization [28.12350681444117]
ドメイン一般化(DG)の主な課題は、観測されたソースドメインへの過度な適合を防ぐ方法である。
タスクとイメージを異なる視点として扱うことにより,新しい多視点DGフレームワークを提案する。
テスト段階では、不安定な予測を緩和するため、複数の拡張現実画像を用いて多視点予測を行う。
論文 参考訳(メタデータ) (2021-12-23T02:51:35Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Meta Batch-Instance Normalization for Generalizable Person
Re-Identification [36.74050132062411]
メタバッチインスタンス正規化(MetaBIN)と呼ばれる新しい一般化可能なRe-IDフレームワークを提案する。
我々の主な考えは、前もって失敗した一般化シナリオをシミュレートして正規化層を一般化することである。
本モデルは,大規模ドメイン一般化Re-IDベンチマークとクロスドメインRe-ID問題において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-11-30T10:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。