論文の概要: Bringing Generalization to Deep Multi-view Detection
- arxiv url: http://arxiv.org/abs/2109.12227v1
- Date: Fri, 24 Sep 2021 23:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 07:30:37.772563
- Title: Bringing Generalization to Deep Multi-view Detection
- Title(参考訳): 深層多視点検出への一般化
- Authors: Jeet Vora, Swetanjal Dutta, Shyamgopal Karthik, Vineet Gandhi
- Abstract要約: マルチビュー検出(MVD)は、様々なアプリケーションにおいて、正確なトップビュー占有率マップを必要とする主要なソリューションである。
本稿では,既存の最先端フレームワークに対する事前学習,プーリング戦略,正規化,損失関数の修正を提案する。
我々は、一般化能力に関するMVD法を評価する必要性を動機付けるために、ワイルドトラックとマルチビューックスデータセットに関する包括的な実験を行う。
- 参考スコア(独自算出の注目度): 5.753786926820733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view Detection (MVD) is highly effective for occlusion reasoning and is
a mainstream solution in various applications that require accurate top-view
occupancy maps. While recent works using deep learning have made significant
advances in the field, they have overlooked the generalization aspect, which
makes them \emph{impractical for real-world deployment}. The key novelty of our
work is to \emph{formalize} three critical forms of generalization and
\emph{propose experiments to investigate them}: i) generalization across a
varying number of cameras, ii) generalization with varying camera positions,
and finally, iii) generalization to new scenes. We find that existing \sota
models show poor generalization by overfitting to a single scene and camera
configuration. We propose modifications in terms of pre-training, pooling
strategy, regularization, and loss function to an existing state-of-the-art
framework, leading to successful generalization across new camera
configurations and new scenes. We perform a comprehensive set of experiments on
the \wildtrack and \multiviewx datasets to (a) motivate the necessity to
evaluate MVD methods on generalization abilities and (b) demonstrate the
efficacy of the proposed approach. The code is publicly available at
\url{https://github.com/jeetv/GMVD}
- Abstract(参考訳): マルチビュー検出(mvd)はオクルージョン推論に非常に効果的であり、正確なトップビュー占有マップを必要とする様々なアプリケーションにおいて主流のソリューションである。
ディープラーニングを用いた最近の研究はこの分野で大きな進歩を遂げているが、彼らは一般化の側面を見落としている。
私たちの研究の重要な新規性は、一般化の3つの重要な形式とそれらを調べるための「emph{propose experiment」である。
一 様々な数のカメラにまたがる一般化
二 様々なカメラ位置の一般化、そして最後に
三 新しい場面への一般化
既存の \sota モデルでは,単一シーンとカメラ構成にオーバーフィットすることで,一般化が不十分であることが判明した。
本稿では,事前トレーニング,プーリング戦略,正規化,損失関数を既存の最先端フレームワークに変更して,新たなカメラ構成と新たなシーンの一般化に成功させる方法を提案する。
我々は,\wildtrack と \multiviewx データセットに対して包括的な実験を行う。
(a)一般化能力とMVD法の評価の必要性を動機づける
b)提案手法の有効性を実証する。
コードは \url{https://github.com/jeetv/GMVD} で公開されている。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Beyond Sole Strength: Customized Ensembles for Generalized
Vision-Language Models [59.608411859194]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - Background-Mixed Augmentation for Weakly Supervised Change Detection [18.319961338185458]
変化検出(CD)とは、背景の変化(環境の変化など)からオブジェクトの変更(オブジェクトの欠落や出現)を分離することである。
近年の深層学習に基づく手法は,ペア学習を用いた新しいネットワークアーキテクチャや最適化戦略を開発している。
我々は,画像レベルのラベルのみを必要とする,弱教師付きトレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-21T14:12:53Z) - Towards Domain-agnostic Depth Completion [96.67020906681175]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域間での一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - More is Better: A Novel Multi-view Framework for Domain Generalization [28.12350681444117]
ドメイン一般化(DG)の主な課題は、観測されたソースドメインへの過度な適合を防ぐ方法である。
タスクとイメージを異なる視点として扱うことにより,新しい多視点DGフレームワークを提案する。
テスト段階では、不安定な予測を緩和するため、複数の拡張現実画像を用いて多視点予測を行う。
論文 参考訳(メタデータ) (2021-12-23T02:51:35Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Meta Batch-Instance Normalization for Generalizable Person
Re-Identification [36.74050132062411]
メタバッチインスタンス正規化(MetaBIN)と呼ばれる新しい一般化可能なRe-IDフレームワークを提案する。
我々の主な考えは、前もって失敗した一般化シナリオをシミュレートして正規化層を一般化することである。
本モデルは,大規模ドメイン一般化Re-IDベンチマークとクロスドメインRe-ID問題において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-11-30T10:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。