論文の概要: Active View Selection for Scene-level Multi-view Crowd Counting and Localization with Limited Labels
- arxiv url: http://arxiv.org/abs/2509.16684v1
- Date: Sat, 20 Sep 2025 13:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.92507
- Title: Active View Selection for Scene-level Multi-view Crowd Counting and Localization with Limited Labels
- Title(参考訳): 限定ラベルを用いたシーンレベルの多視点集団カウントと位置決めのためのアクティブビュー選択
- Authors: Qi Zhang, Bin Li, Antoni B. Chan, Hui Huang,
- Abstract要約: 複数ビューの観客数と位置決めは、入力された複数ビューを融合させ、地上の観客数や場所を推定する。
既存の方法は巨大なラベル付きビューとイメージを必要とし、クロスシーン設定ができない。
ビュー選択戦略において、ビューとシーンのジオメトリを考慮した独立ビュー選択法(IVS)を提案する。
また、ビュー選択、ラベル付け、下流タスクを協調的に最適化するアクティブビュー選択法(AVS)も提案した。
- 参考スコア(独自算出の注目度): 55.396639405563526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-view crowd counting and localization fuse the input multi-views for estimating the crowd number or locations on the ground. Existing methods mainly focus on accurately predicting on the crowd shown in the input views, which neglects the problem of choosing the `best' camera views to perceive all crowds well in the scene. Besides, existing view selection methods require massive labeled views and images, and lack the ability for cross-scene settings, reducing their application scenarios. Thus, in this paper, we study the view selection issue for better scene-level multi-view crowd counting and localization results with cross-scene ability and limited label demand, instead of input-view-level results. We first propose an independent view selection method (IVS) that considers view and scene geometries in the view selection strategy and conducts the view selection, labeling, and downstream tasks independently. Based on IVS, we also put forward an active view selection method (AVS) that jointly optimizes the view selection, labeling, and downstream tasks. In AVS, we actively select the labeled views and consider both the view/scene geometries and the predictions of the downstream task models in the view selection process. Experiments on multi-view counting and localization tasks demonstrate the cross-scene and the limited label demand advantages of the proposed active view selection method (AVS), outperforming existing methods and with wider application scenarios.
- Abstract(参考訳): 複数ビューの観客数と位置決めは、入力された複数ビューを融合させ、地上の観客数や場所を推定する。
既存の手法は主に、入力ビューに表示される群衆を正確に予測することに焦点を当てており、シーン内のすべての群衆をよく知覚する「ベスト」カメラビューを選択するという問題を無視している。
さらに、既存のビュー選択方法は巨大なラベル付きビューとイメージを必要とし、クロスシーン設定の能力が欠如しており、アプリケーションのシナリオが減っている。
そこで,本稿では,インプット・ビュー・レベルではなく,クロスシーン能力と限定されたラベル要求を考慮した,シーンレベルのマルチビュー・クラウドカウントとローカライゼーションの結果に対するビュー選択問題について検討する。
まず、ビュー選択戦略において、ビューとシーンのジオメトリを考慮し、ビュー選択、ラベル付け、下流タスクを独立して行う独立ビュー選択法(IVS)を提案する。
IVSに基づいて、ビュー選択、ラベル付け、下流タスクを共同で最適化するアクティブビュー選択法(AVS)も提案した。
AVSでは、ラベル付きビューを積極的に選択し、ビュー選択プロセスにおいて、ビュー/シーンのジオメトリと下流タスクモデルの予測の両方について検討する。
マルチビューカウントおよびローカライゼーションタスクの実験は、提案したアクティブビュー選択法(AVS)のクロスシーンと限定ラベル要求の利点を示し、既存の手法よりも優れ、アプリケーションシナリオも広い。
関連論文リスト
- Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos [71.01549400773197]
ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSWITCH-A-VIEWを紹介する。
トレーニングビデオに擬似ラベルのセグメントを第一の視点に配置する作業を行う。
一方のハウツービデオにおける視覚的コンテンツと音声的コンテンツの間のパターンと,他方のビュー・スウィッチ・モーメントを見出す。
論文 参考訳(メタデータ) (2024-12-24T12:16:43Z) - Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos [66.1935609072708]
LangViewは、ビュー依存のキャプション予測の相対的精度を、擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークである。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Improving Viewpoint-Independent Object-Centric Representations through Active Viewpoint Selection [41.419853273742746]
対象中心学習のための新しいアクティブ視点選択戦略を提案する。
各シーンの観察画像からの情報に基づいて、未知の視点から画像を予測する。
本手法は未知の視点から正確に画像を予測することができる。
論文 参考訳(メタデータ) (2024-11-01T07:01:44Z) - Action Selection Learning for Multi-label Multi-view Action Recognition [2.8266810371534152]
本研究は,映像レベルのラベルが弱い広帯域領域を撮影するために,カメラを分散した実世界のシナリオに焦点を当てた。
本稿では,多視点行動選択学習法(MultiASL)を提案する。
MM-Officeデータセットを用いた実世界のオフィス環境における実験は,既存手法と比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T10:36:22Z) - Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances [59.34619548026885]
本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
論文 参考訳(メタデータ) (2023-03-10T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。