論文の概要: Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances
- arxiv url: http://arxiv.org/abs/2303.06145v1
- Date: Fri, 10 Mar 2023 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 13:59:06.932489
- Title: Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances
- Title(参考訳): カメラビューの選択を学ぶ - 複数視点の効率的な理解
- Authors: Yunzhong Hou, Stephen Gould, Liang Zheng
- Abstract要約: 本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
- 参考スコア(独自算出の注目度): 59.34619548026885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiview camera setups have proven useful in many computer vision
applications for reducing ambiguities, mitigating occlusions, and increasing
field-of-view coverage. However, the high computational cost associated with
multiple views poses a significant challenge for end devices with limited
computational resources. To address this issue, we propose a view selection
approach that analyzes the target object or scenario from given views and
selects the next best view for processing. Our approach features a
reinforcement learning based camera selection module, MVSelect, that not only
selects views but also facilitates joint training with the task network.
Experimental results on multiview classification and detection tasks show that
our approach achieves promising performance while using only 2 or 3 out of N
available views, significantly reducing computational costs. Furthermore,
analysis on the selected views reveals that certain cameras can be shut off
with minimal performance impact, shedding light on future camera layout
optimization for multiview systems. Code is available at
https://github.com/hou-yz/MVSelect.
- Abstract(参考訳): マルチビューカメラのセットアップは多くのコンピュータビジョンアプリケーションにおいて、曖昧さの低減、オクルージョンの緩和、視野のカバレッジの向上に有用であることが証明されている。
しかし、複数のビューに関連する高い計算コストは、計算資源が限られているエンドデバイスにとって大きな課題となる。
この問題に対処するために,与えられたビューから対象オブジェクトやシナリオを分析し,次に最適なビューを選択するビュー選択手法を提案する。
本手法は,強化学習によるカメラ選択モジュールmvselectを特徴とし,ビューの選択だけでなく,タスクネットワークとの協調学習も行う。
マルチビュー分類および検出タスクの実験結果から,提案手法はNのうち2~3つしか使用せず,計算コストを大幅に削減することを示す。
さらに、選択したビューを分析した結果、特定のカメラを性能への影響を最小限に抑え、将来のマルチビューシステムにおけるカメラレイアウト最適化に光を当てることが判明した。
コードはhttps://github.com/hou-yz/mvselectで入手できる。
関連論文リスト
- CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition [23.031934558964473]
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。
また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-22T15:10:42Z) - Investigating and Mitigating the Side Effects of Noisy Views for
Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios [37.09414795370519]
マルチビュークラスタリング(MVC)は,マルチビューデータのカテゴリ構造を自己管理的に探索することを目的としている。
まず最初に、ノイズの多いビューの欠点を公式に調査し、その後、この問題に対処するための理論的に根拠づけられたディープMVCメソッド(MVAN)を提案します。
具体的には、複数のビューにまたがる非共有パラメータと一貫性のないクラスタリング予測を可能にし、ノイズの多いビューの副作用を低減するための新しいMVC目標を提案する。
論文 参考訳(メタデータ) (2023-03-30T09:22:17Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。