論文の概要: Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation
- arxiv url: http://arxiv.org/abs/2410.13585v1
- Date: Thu, 17 Oct 2024 14:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:34.029923
- Title: Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation
- Title(参考訳): 外部マルチカメラビューレコメンデーションのための擬似データセット生成
- Authors: Kuan-Ying Lee, Qian Zhou, Klara Nahrstedt,
- Abstract要約: 本稿では,通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。
対象領域のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより、対象領域におけるモデルの精度が68%向上する。
- 参考スコア(独自算出の注目度): 8.21260979799828
- License:
- Abstract: Multi-camera systems are indispensable in movies, TV shows, and other media. Selecting the appropriate camera at every timestamp has a decisive impact on production quality and audience preferences. Learning-based view recommendation frameworks can assist professionals in decision-making. However, they often struggle outside of their training domains. The scarcity of labeled multi-camera view recommendation datasets exacerbates the issue. Based on the insight that many videos are edited from the original multi-camera videos, we propose transforming regular videos into pseudo-labeled multi-camera view recommendation datasets. Promisingly, by training the model on pseudo-labeled datasets stemming from videos in the target domain, we achieve a 68% relative improvement in the model's accuracy in the target domain and bridge the accuracy gap between in-domain and never-before-seen domains.
- Abstract(参考訳): マルチカメラシステムは、映画、テレビ番組、その他のメディアでは不可欠である。
タイムスタンプ毎に適切なカメラを選択することは、生産品質と観客の好みに決定的な影響を与える。
学習ベースのビューレコメンデーションフレームワークは、意思決定のプロフェッショナルを支援する。
しかし、訓練領域外では苦戦することが多い。
ラベル付きマルチカメラビューレコメンデーションデータセットの不足が問題を悪化させる。
従来のマルチカメラビデオから多くのビデオが編集されているという知見に基づいて、通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。
提案手法は,対象ドメイン内のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより,対象ドメインにおけるモデルの精度を68%向上させ,ドメイン内と未確認領域間の精度ギャップを埋める。
関連論文リスト
- A Multi-annotated and Multi-modal Dataset for Wide-angle Video Quality Assessment [68.17798591554637]
広角ビデオは、変形、露出、その他の歪みを引き起こす。
この欠陥は、主に広角ビデオのための特別なデータセットがないことに起因する。
マルチアノテートおよびマルチモーダル広角ビデオ品質評価データセットを構築した。
論文 参考訳(メタデータ) (2025-01-21T12:15:16Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - MVUDA: Unsupervised Domain Adaptation for Multi-view Pedestrian Detection [4.506083131558207]
我々は、ラベル付きデータをテストで使用するものと異なるマルチカメラ設定を用いて収集する環境で、多視点歩行者検出に対処する。
ラベル付きデータを追加することなく新しいリグにモデルを適応させる,教師なしドメイン適応(UDA)手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T12:36:12Z) - Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Camera-Driven Representation Learning for Unsupervised Domain Adaptive
Person Re-identification [33.25577310265293]
本稿では,カメララベルを利用したカリキュラム学習フレームワークを導入し,情報ソースからターゲットドメインへの知識の伝達を段階的に行う。
各カリキュラムシーケンスに対して、ターゲット領域の人物画像の擬似ラベルを生成し、教師付き方法でreIDモデルをトレーニングする。
擬似ラベルはカメラに対して非常に偏りがあり、同一のカメラから得られた人物画像は、異なるIDであっても同一の擬似ラベルを持つ可能性が高いことを示唆している。
論文 参考訳(メタデータ) (2023-08-23T04:01:56Z) - Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows [83.54243912535667]
まず、コンサート、スポーツゲーム、ガラショー、コンテストを含む4つの異なるシナリオを用いて、この設定に関する新しいベンチマークを収集する。
14時間編集されたビデオに貢献する88時間の生のビデオが含まれている。
歴史的ショットやその他の視点からのヒントを利用してショット遷移決定を行う新しいアプローチである時間的・文脈的変換器を提案する。
論文 参考訳(メタデータ) (2022-10-17T04:11:23Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World
Domain Adaptation of Semantic Segmentation [9.984696742463628]
本研究は,インターネットから収集した道路シーン映像の領域適応手法をベンチマークするための,新しいマルチドメインデータセットを提示する。
データセットは、人間の主観的判断と既存の道路シーンデータセットを用いて判断される異常スコアという2つの基準に基づいて、多様なシーン/ドメインをカバーするために選択された100本のビデオに対するピクセルレベルのアノテーションで構成されている。
論文 参考訳(メタデータ) (2021-01-30T04:43:22Z) - Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in
Video-Based Face Recognition [8.220945563455848]
新しいビデオカメラでキャプチャしたラベルのないトラックレットを用いて、シームズネットワークのCNN埋め込みに適応する新しいディープドメイン適応(DA)法を提案する。
提案手法は,異なるトレーニングシナリオ下での深層シームズネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2020-02-11T05:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。