論文の概要: Semi-Supervised Multi-View Crowd Counting by Ranking Multi-View Fusion Models
- arxiv url: http://arxiv.org/abs/2512.16243v1
- Date: Thu, 18 Dec 2025 06:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.956233
- Title: Semi-Supervised Multi-View Crowd Counting by Ranking Multi-View Fusion Models
- Title(参考訳): 多視点融合モデルランキングによる半監督型多視点群カウント
- Authors: Qi Zhang, Yunfei Gong, Zhidan Xie, Zhizi Wang, Antoni B. Chan, Hui Huang,
- Abstract要約: 本稿では,2つの半教師付き多視点群カウントフレームワークを提案する。
入力ビューの数が異なるマルチビュー融合モデルをランク付けする。
実験では,提案手法の利点を実証する。
- 参考スコア(独自算出の注目度): 46.12213690696149
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-view crowd counting has been proposed to deal with the severe occlusion issue of crowd counting in large and wide scenes. However, due to the difficulty of collecting and annotating multi-view images, the datasets for multi-view counting have a limited number of multi-view frames and scenes. To solve the problem of limited data, one approach is to collect synthetic data to bypass the annotating step, while another is to propose semi- or weakly-supervised or unsupervised methods that demand less multi-view data. In this paper, we propose two semi-supervised multi-view crowd counting frameworks by ranking the multi-view fusion models of different numbers of input views, in terms of the model predictions or the model uncertainties. Specifically, for the first method (vanilla model), we rank the multi-view fusion models' prediction results of different numbers of camera-view inputs, namely, the model's predictions with fewer camera views shall not be larger than the predictions with more camera views. For the second method, we rank the estimated model uncertainties of the multi-view fusion models with a variable number of view inputs, guided by the multi-view fusion models' prediction errors, namely, the model uncertainties with more camera views shall not be larger than those with fewer camera views. These constraints are introduced into the model training in a semi-supervised fashion for multi-view counting with limited labeled data. The experiments demonstrate the advantages of the proposed multi-view model ranking methods compared with other semi-supervised counting methods.
- Abstract(参考訳): 大規模で広い場面で観衆を数えるという深刻な排他的問題に対処する多視点観衆計数法が提案されている。
しかし、多視点画像の収集と注釈付けが難しいため、多視点カウントのためのデータセットには、限られた数の多視点フレームとシーンがある。
制限されたデータの問題を解決するために、アノテーションのステップをバイパスするために合成データを収集する手法と、より少ないマルチビューデータを要求する半あるいは弱教師なしの手法を提案する方法がある。
本稿では、モデル予測やモデル不確実性の観点から、異なる入力ビューの多視点融合モデルをランク付けして、2つの半教師付き多視点群カウントフレームワークを提案する。
具体的には、第1の方法(バニラモデル)について、カメラビュー入力数の異なるマルチビュー融合モデルの予測結果をランク付けする。
第2の方法では、多視点融合モデルの予測不確かさを可変数のビュー入力でランク付けし、多視点融合モデルの予測誤差によって導かれる、すなわち、より多くのカメラビューを持つモデル不確かさは、より少ないカメラビューを持つモデルよりも大きくならない。
これらの制約は、ラベル付きデータに制限のあるマルチビューカウントのための半教師付き方式でモデルトレーニングに導入される。
本実験は,他の半教師付きカウント法と比較して,提案手法の利点を実証するものである。
関連論文リスト
- MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。
このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。
この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文 参考訳(メタデータ) (2025-03-11T17:50:59Z) - Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos [66.1935609072708]
LangViewは、ビュー依存のキャプション予測の相対的精度を、擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークである。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Multi-View People Detection in Large Scenes via Supervised View-Wise Contribution Weighting [44.48514301889318]
本稿では、教師付きビューワイドコントリビューション重み付け手法の開発により、多視点人物検出の改善に焦点をあてる。
モデルの一般化能力を高めるために、大規模な合成データセットが採用されている。
実験により,提案手法が有望な多面的人物検出性能の実現に有効であることを実証した。
論文 参考訳(メタデータ) (2024-05-30T11:03:27Z) - Multi-View Conformal Learning for Heterogeneous Sensor Fusion [0.12086712057375555]
異種センサ融合のためのマルチビュー・シングルビューコンフォメーションモデルの構築と試験を行った。
我々のモデルは、共形予測フレームワークに基づいているため、理論的な限界信頼保証を提供する。
また,複数ビューモデルが単一ビューモデルに比べて不確実性の低い予測セットを生成することを示した。
論文 参考訳(メタデータ) (2024-02-19T17:30:09Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - TSK Fuzzy System Towards Few Labeled Incomplete Multi-View Data
Classification [24.01191516774655]
これらの課題に対処するために,トランスダクティブ半教師付きマルチビューTSKファジィシステムモデリング法(SSIMV_TSK)を提案する。
提案手法は,未知のビュー計算,ラベルなしデータの擬似ラベル学習,ファジィシステムモデリングをひとつのプロセスに統合し,解釈可能なファジィルールを持つモデルを生成する。
実データを用いた実験の結果,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-08T11:41:06Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。