論文の概要: Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation
- arxiv url: http://arxiv.org/abs/2410.13585v1
- Date: Thu, 17 Oct 2024 14:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:34.029923
- Title: Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation
- Title(参考訳): 外部マルチカメラビューレコメンデーションのための擬似データセット生成
- Authors: Kuan-Ying Lee, Qian Zhou, Klara Nahrstedt,
- Abstract要約: 本稿では,通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。
対象領域のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより、対象領域におけるモデルの精度が68%向上する。
- 参考スコア(独自算出の注目度): 8.21260979799828
- License:
- Abstract: Multi-camera systems are indispensable in movies, TV shows, and other media. Selecting the appropriate camera at every timestamp has a decisive impact on production quality and audience preferences. Learning-based view recommendation frameworks can assist professionals in decision-making. However, they often struggle outside of their training domains. The scarcity of labeled multi-camera view recommendation datasets exacerbates the issue. Based on the insight that many videos are edited from the original multi-camera videos, we propose transforming regular videos into pseudo-labeled multi-camera view recommendation datasets. Promisingly, by training the model on pseudo-labeled datasets stemming from videos in the target domain, we achieve a 68% relative improvement in the model's accuracy in the target domain and bridge the accuracy gap between in-domain and never-before-seen domains.
- Abstract(参考訳): マルチカメラシステムは、映画、テレビ番組、その他のメディアでは不可欠である。
タイムスタンプ毎に適切なカメラを選択することは、生産品質と観客の好みに決定的な影響を与える。
学習ベースのビューレコメンデーションフレームワークは、意思決定のプロフェッショナルを支援する。
しかし、訓練領域外では苦戦することが多い。
ラベル付きマルチカメラビューレコメンデーションデータセットの不足が問題を悪化させる。
従来のマルチカメラビデオから多くのビデオが編集されているという知見に基づいて、通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。
提案手法は,対象ドメイン内のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより,対象ドメインにおけるモデルの精度を68%向上させ,ドメイン内と未確認領域間の精度ギャップを埋める。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - DVOS: Self-Supervised Dense-Pattern Video Object Segmentation [6.092973123903838]
Dense Video Object (DVOS) のシナリオでは、各ビデオフレームは数百もの小さな、密度が高く、部分的に隠されたオブジェクトを含んでいる。
マルチタスク学習による拡散に基づくDVOSの半時間的アプローチを提案する。
提案手法の有用性と有効性を示すために, ハンドヘルドビデオとドローンキャプチャビデオの小麦頭部分割のためのDVOSモデルを開発した。
論文 参考訳(メタデータ) (2024-06-07T17:58:36Z) - Camera-Driven Representation Learning for Unsupervised Domain Adaptive
Person Re-identification [33.25577310265293]
本稿では,カメララベルを利用したカリキュラム学習フレームワークを導入し,情報ソースからターゲットドメインへの知識の伝達を段階的に行う。
各カリキュラムシーケンスに対して、ターゲット領域の人物画像の擬似ラベルを生成し、教師付き方法でreIDモデルをトレーニングする。
擬似ラベルはカメラに対して非常に偏りがあり、同一のカメラから得られた人物画像は、異なるIDであっても同一の擬似ラベルを持つ可能性が高いことを示唆している。
論文 参考訳(メタデータ) (2023-08-23T04:01:56Z) - Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows [83.54243912535667]
まず、コンサート、スポーツゲーム、ガラショー、コンテストを含む4つの異なるシナリオを用いて、この設定に関する新しいベンチマークを収集する。
14時間編集されたビデオに貢献する88時間の生のビデオが含まれている。
歴史的ショットやその他の視点からのヒントを利用してショット遷移決定を行う新しいアプローチである時間的・文脈的変換器を提案する。
論文 参考訳(メタデータ) (2022-10-17T04:11:23Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World
Domain Adaptation of Semantic Segmentation [9.984696742463628]
本研究は,インターネットから収集した道路シーン映像の領域適応手法をベンチマークするための,新しいマルチドメインデータセットを提示する。
データセットは、人間の主観的判断と既存の道路シーンデータセットを用いて判断される異常スコアという2つの基準に基づいて、多様なシーン/ドメインをカバーするために選択された100本のビデオに対するピクセルレベルのアノテーションで構成されている。
論文 参考訳(メタデータ) (2021-01-30T04:43:22Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in
Video-Based Face Recognition [8.220945563455848]
新しいビデオカメラでキャプチャしたラベルのないトラックレットを用いて、シームズネットワークのCNN埋め込みに適応する新しいディープドメイン適応(DA)法を提案する。
提案手法は,異なるトレーニングシナリオ下での深層シームズネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2020-02-11T05:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。