Fugu-MT 論文翻訳(概要): Bringing Generalization to Deep Multi-view Detection

論文の概要: Bringing Generalization to Deep Multi-view Detection

arxiv url: http://arxiv.org/abs/2109.12227v1
Date: Fri, 24 Sep 2021 23:02:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-01 07:30:37.772563
Title: Bringing Generalization to Deep Multi-view Detection
Title（参考訳）: 深層多視点検出への一般化
Authors: Jeet Vora, Swetanjal Dutta, Shyamgopal Karthik, Vineet Gandhi
Abstract要約: マルチビュー検出(MVD)は、様々なアプリケーションにおいて、正確なトップビュー占有率マップを必要とする主要なソリューションである。本稿では,既存の最先端フレームワークに対する事前学習,プーリング戦略,正規化,損失関数の修正を提案する。我々は、一般化能力に関するMVD法を評価する必要性を動機付けるために、ワイルドトラックとマルチビューックスデータセットに関する包括的な実験を行う。
参考スコア（独自算出の注目度）: 5.753786926820733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-view Detection (MVD) is highly effective for occlusion reasoning and is a mainstream solution in various applications that require accurate top-view occupancy maps. While recent works using deep learning have made significant advances in the field, they have overlooked the generalization aspect, which makes them \emph{impractical for real-world deployment}. The key novelty of our work is to \emph{formalize} three critical forms of generalization and \emph{propose experiments to investigate them}: i) generalization across a varying number of cameras, ii) generalization with varying camera positions, and finally, iii) generalization to new scenes. We find that existing \sota models show poor generalization by overfitting to a single scene and camera configuration. We propose modifications in terms of pre-training, pooling strategy, regularization, and loss function to an existing state-of-the-art framework, leading to successful generalization across new camera configurations and new scenes. We perform a comprehensive set of experiments on the \wildtrack and \multiviewx datasets to (a) motivate the necessity to evaluate MVD methods on generalization abilities and (b) demonstrate the efficacy of the proposed approach. The code is publicly available at \url{https://github.com/jeetv/GMVD}
Abstract（参考訳）: マルチビュー検出(mvd)はオクルージョン推論に非常に効果的であり、正確なトップビュー占有マップを必要とする様々なアプリケーションにおいて主流のソリューションである。ディープラーニングを用いた最近の研究はこの分野で大きな進歩を遂げているが、彼らは一般化の側面を見落としている。私たちの研究の重要な新規性は、一般化の3つの重要な形式とそれらを調べるための「emph{propose experiment」である。一様々な数のカメラにまたがる一般化二様々なカメラ位置の一般化、そして最後に三新しい場面への一般化既存の \sota モデルでは,単一シーンとカメラ構成にオーバーフィットすることで,一般化が不十分であることが判明した。本稿では,事前トレーニング,プーリング戦略,正規化,損失関数を既存の最先端フレームワークに変更して,新たなカメラ構成と新たなシーンの一般化に成功させる方法を提案する。我々は,\wildtrack と \multiviewx データセットに対して包括的な実験を行う。 (a)一般化能力とMVD法の評価の必要性を動機づける b)提案手法の有効性を実証する。コードは \url{https://github.com/jeetv/GMVD} で公開されている。

関連論文リスト

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2026-02-17T09:51:40Z)
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [14.511049253735834]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。私たちのソリューションはDexGraspVLAです。これは、事前訓練されたビジョンランゲージモデルをハイレベルタスクプランナとして利用する階層的なフレームワークです。本手法は, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
論文参考訳（メタデータ） (2025-02-28T09:57:20Z)
Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文参考訳（メタデータ） (2024-12-24T08:38:35Z)
Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization [25.772574727405825]
視覚的ローカライゼーションは、ポーズ画像のデータベースに対して、クエリ画像のカメラのポーズを決定することを目的としている。カメラのポーズを直接回帰するディープニューラルネットワークは、高速な推論能力のために人気を集めている。 Reloc3rは、シンプルだが効果的な視覚的ローカライゼーションフレームワークである。
論文参考訳（メタデータ） (2024-12-11T13:36:18Z)
Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文参考訳（メタデータ） (2024-09-09T07:31:16Z)
GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文参考訳（メタデータ） (2024-06-28T17:42:08Z)
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文参考訳（メタデータ） (2024-06-04T17:13:10Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
Aligning and Prompting Everything All at Once for Universal Visual Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。 APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。 160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文参考訳（メタデータ） (2023-12-04T18:59:50Z)
Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-16T04:59:50Z)
More is Better: A Novel Multi-view Framework for Domain Generalization [28.12350681444117]
ドメイン一般化(DG)の主な課題は、観測されたソースドメインへの過度な適合を防ぐ方法である。タスクとイメージを異なる視点として扱うことにより,新しい多視点DGフレームワークを提案する。テスト段階では、不安定な予測を緩和するため、複数の拡張現実画像を用いて多視点予測を行う。
論文参考訳（メタデータ） (2021-12-23T02:51:35Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)
Meta Batch-Instance Normalization for Generalizable Person Re-Identification [36.74050132062411]
メタバッチインスタンス正規化(MetaBIN)と呼ばれる新しい一般化可能なRe-IDフレームワークを提案する。我々の主な考えは、前もって失敗した一般化シナリオをシミュレートして正規化層を一般化することである。本モデルは,大規模ドメイン一般化Re-IDベンチマークとクロスドメインRe-ID問題において,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2020-11-30T10:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。