論文の概要: Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances
- arxiv url: http://arxiv.org/abs/2303.06145v1
- Date: Fri, 10 Mar 2023 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 13:59:06.932489
- Title: Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances
- Title(参考訳): カメラビューの選択を学ぶ - 複数視点の効率的な理解
- Authors: Yunzhong Hou, Stephen Gould, Liang Zheng
- Abstract要約: 本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
- 参考スコア(独自算出の注目度): 59.34619548026885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiview camera setups have proven useful in many computer vision
applications for reducing ambiguities, mitigating occlusions, and increasing
field-of-view coverage. However, the high computational cost associated with
multiple views poses a significant challenge for end devices with limited
computational resources. To address this issue, we propose a view selection
approach that analyzes the target object or scenario from given views and
selects the next best view for processing. Our approach features a
reinforcement learning based camera selection module, MVSelect, that not only
selects views but also facilitates joint training with the task network.
Experimental results on multiview classification and detection tasks show that
our approach achieves promising performance while using only 2 or 3 out of N
available views, significantly reducing computational costs. Furthermore,
analysis on the selected views reveals that certain cameras can be shut off
with minimal performance impact, shedding light on future camera layout
optimization for multiview systems. Code is available at
https://github.com/hou-yz/MVSelect.
- Abstract(参考訳): マルチビューカメラのセットアップは多くのコンピュータビジョンアプリケーションにおいて、曖昧さの低減、オクルージョンの緩和、視野のカバレッジの向上に有用であることが証明されている。
しかし、複数のビューに関連する高い計算コストは、計算資源が限られているエンドデバイスにとって大きな課題となる。
この問題に対処するために,与えられたビューから対象オブジェクトやシナリオを分析し,次に最適なビューを選択するビュー選択手法を提案する。
本手法は,強化学習によるカメラ選択モジュールmvselectを特徴とし,ビューの選択だけでなく,タスクネットワークとの協調学習も行う。
マルチビュー分類および検出タスクの実験結果から,提案手法はNのうち2~3つしか使用せず,計算コストを大幅に削減することを示す。
さらに、選択したビューを分析した結果、特定のカメラを性能への影響を最小限に抑え、将来のマルチビューシステムにおけるカメラレイアウト最適化に光を当てることが判明した。
コードはhttps://github.com/hou-yz/mvselectで入手できる。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Multi-View People Detection in Large Scenes via Supervised View-Wise Contribution Weighting [44.48514301889318]
本稿では、教師付きビューワイドコントリビューション重み付け手法の開発により、多視点人物検出の改善に焦点をあてる。
モデルの一般化能力を高めるために、大規模な合成データセットが採用されている。
実験により,提案手法が有望な多面的人物検出性能の実現に有効であることを実証した。
論文 参考訳(メタデータ) (2024-05-30T11:03:27Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios [35.32285779434823]
マルチビュークラスタリング(MVC)は,マルチビューデータのカテゴリ構造を自己管理的に探索することを目的としている。
ノイズの多いビューは、実際のマルチビューシナリオでビューがノイズの多いときに、深刻な縮退する可能性がある。
この問題に対処するために理論的に基礎をおくディープMVC法(別名MVCAN)を提案する。
論文 参考訳(メタデータ) (2023-03-30T09:22:17Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。