Fugu-MT 論文翻訳(概要): Learning to Select Camera Views: Efficient Multiview Understanding at Few Glances

論文の概要: Learning to Select Camera Views: Efficient Multiview Understanding at Few Glances

arxiv url: http://arxiv.org/abs/2303.06145v1
Date: Fri, 10 Mar 2023 18:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-13 13:59:06.932489
Title: Learning to Select Camera Views: Efficient Multiview Understanding at Few Glances
Title（参考訳）: カメラビューの選択を学ぶ - 複数視点の効率的な理解
Authors: Yunzhong Hou, Stephen Gould, Liang Zheng
Abstract要約: 本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
参考スコア（独自算出の注目度）: 59.34619548026885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiview camera setups have proven useful in many computer vision applications for reducing ambiguities, mitigating occlusions, and increasing field-of-view coverage. However, the high computational cost associated with multiple views poses a significant challenge for end devices with limited computational resources. To address this issue, we propose a view selection approach that analyzes the target object or scenario from given views and selects the next best view for processing. Our approach features a reinforcement learning based camera selection module, MVSelect, that not only selects views but also facilitates joint training with the task network. Experimental results on multiview classification and detection tasks show that our approach achieves promising performance while using only 2 or 3 out of N available views, significantly reducing computational costs. Furthermore, analysis on the selected views reveals that certain cameras can be shut off with minimal performance impact, shedding light on future camera layout optimization for multiview systems. Code is available at https://github.com/hou-yz/MVSelect.
Abstract（参考訳）: マルチビューカメラのセットアップは多くのコンピュータビジョンアプリケーションにおいて、曖昧さの低減、オクルージョンの緩和、視野のカバレッジの向上に有用であることが証明されている。しかし、複数のビューに関連する高い計算コストは、計算資源が限られているエンドデバイスにとって大きな課題となる。この問題に対処するために,与えられたビューから対象オブジェクトやシナリオを分析し,次に最適なビューを選択するビュー選択手法を提案する。本手法は,強化学習によるカメラ選択モジュールmvselectを特徴とし,ビューの選択だけでなく,タスクネットワークとの協調学習も行う。マルチビュー分類および検出タスクの実験結果から,提案手法はNのうち2～3つしか使用せず,計算コストを大幅に削減することを示す。さらに、選択したビューを分析した結果、特定のカメラを性能への影響を最小限に抑え、将来のマルチビューシステムにおけるカメラレイアウト最適化に光を当てることが判明した。コードはhttps://github.com/hou-yz/mvselectで入手できる。

関連論文リスト

Active View Selection for Scene-level Multi-view Crowd Counting and Localization with Limited Labels [55.396639405563526]
複数ビューの観客数と位置決めは、入力された複数ビューを融合させ、地上の観客数や場所を推定する。既存の方法は巨大なラベル付きビューとイメージを必要とし、クロスシーン設定ができない。ビュー選択戦略において、ビューとシーンのジオメトリを考慮した独立ビュー選択法(IVS)を提案する。また、ビュー選択、ラベル付け、下流タスクを協調的に最適化するアクティブビュー選択法(AVS)も提案した。
論文参考訳（メタデータ） (2025-09-20T13:23:46Z)
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文参考訳（メタデータ） (2024-11-13T16:31:08Z)
Multi-View People Detection in Large Scenes via Supervised View-Wise Contribution Weighting [44.48514301889318]
本稿では、教師付きビューワイドコントリビューション重み付け手法の開発により、多視点人物検出の改善に焦点をあてる。モデルの一般化能力を高めるために、大規模な合成データセットが採用されている。実験により,提案手法が有望な多面的人物検出性能の実現に有効であることを実証した。
論文参考訳（メタデータ） (2024-05-30T11:03:27Z)
What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文参考訳（メタデータ） (2024-04-01T17:38:25Z)
Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios [35.32285779434823]
マルチビュークラスタリング(MVC)は,マルチビューデータのカテゴリ構造を自己管理的に探索することを目的としている。ノイズの多いビューは、実際のマルチビューシナリオでビューがノイズの多いときに、深刻な縮退する可能性がある。この問題に対処するために理論的に基礎をおくディープMVC法(別名MVCAN)を提案する。
論文参考訳（メタデータ） (2023-03-30T09:22:17Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文参考訳（メタデータ） (2022-05-03T15:03:44Z)
Few-Shot Learning for Video Object Detection in a Transfer-Learning Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文参考訳（メタデータ） (2021-03-26T20:37:55Z)
Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。本稿では,多視点相関に基づくニューラルな手法を提案する。音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文参考訳（メタデータ） (2020-05-12T20:35:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。