Fugu-MT 論文翻訳(概要): Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation

論文の概要: Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation

arxiv url: http://arxiv.org/abs/2410.13585v1
Date: Thu, 17 Oct 2024 14:21:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.949209
Title: Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation
Title（参考訳）: 外部マルチカメラビューレコメンデーションのための擬似データセット生成
Authors: Kuan-Ying Lee, Qian Zhou, Klara Nahrstedt,
Abstract要約: 本稿では,通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。対象領域のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより、対象領域におけるモデルの精度が68%向上する。
参考スコア（独自算出の注目度）: 8.21260979799828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-camera systems are indispensable in movies, TV shows, and other media. Selecting the appropriate camera at every timestamp has a decisive impact on production quality and audience preferences. Learning-based view recommendation frameworks can assist professionals in decision-making. However, they often struggle outside of their training domains. The scarcity of labeled multi-camera view recommendation datasets exacerbates the issue. Based on the insight that many videos are edited from the original multi-camera videos, we propose transforming regular videos into pseudo-labeled multi-camera view recommendation datasets. Promisingly, by training the model on pseudo-labeled datasets stemming from videos in the target domain, we achieve a 68% relative improvement in the model's accuracy in the target domain and bridge the accuracy gap between in-domain and never-before-seen domains.
Abstract（参考訳）: マルチカメラシステムは、映画、テレビ番組、その他のメディアでは不可欠である。タイムスタンプ毎に適切なカメラを選択することは、生産品質と観客の好みに決定的な影響を与える。学習ベースのビューレコメンデーションフレームワークは、意思決定のプロフェッショナルを支援する。しかし、訓練領域外では苦戦することが多い。ラベル付きマルチカメラビューレコメンデーションデータセットの不足が問題を悪化させる。従来のマルチカメラビデオから多くのビデオが編集されているという知見に基づいて、通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。提案手法は,対象ドメイン内のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより,対象ドメインにおけるモデルの精度を68%向上させ,ドメイン内と未確認領域間の精度ギャップを埋める。

関連論文リスト

Advancing Reference-free Evaluation of Video Captions with Factual Analysis [11.012178413572066]
本稿では,レファレンスフリーかつ事実的根拠のない新しいキャプション品質評価器であるVC-Inspectorを紹介する。提案手法は,VATEX-Evalデータセット上での人間の判断に優れた整合性を示し,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-20T05:04:41Z)
Uncertainty-quantified Rollout Policy Adaptation for Unlabelled Cross-domain Temporal Grounding [59.09971455857609]
Video Temporal Groundingは、長いビデオの中で自然言語の記述と一致するビデオセグメントを時間的に見つけることを目的としている。本稿では,データ効率のよいクロスドメイン時間グラウンド法を提案する。この方法では、ターゲットアノテーションの必要性を排除し、計算とストレージの両方のオーバーヘッドをリアルタイムで実行できるほど低く保つ。
論文参考訳（メタデータ） (2025-08-08T13:47:00Z)
A Multi-annotated and Multi-modal Dataset for Wide-angle Video Quality Assessment [68.17798591554637]
広角ビデオは、変形、露出、その他の歪みを引き起こす。この欠陥は、主に広角ビデオのための特別なデータセットがないことに起因する。マルチアノテートおよびマルチモーダル広角ビデオ品質評価データセットを構築した。
論文参考訳（メタデータ） (2025-01-21T12:15:16Z)
Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文参考訳（メタデータ） (2025-01-10T18:59:54Z)
MVUDA: Unsupervised Domain Adaptation for Multi-view Pedestrian Detection [4.506083131558207]
我々は、ラベル付きデータをテストで使用するものと異なるマルチカメラ設定を用いて収集する環境で、多視点歩行者検出に対処する。ラベル付きデータを追加することなく新しいリグにモデルを適応させる,教師なしドメイン適応(UDA)手法を提案する。
論文参考訳（メタデータ） (2024-12-05T12:36:12Z)
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文参考訳（メタデータ） (2024-11-13T16:31:08Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
DVOS: Self-Supervised Dense-Pattern Video Object Segmentation [6.092973123903838]
Dense Video Object (DVOS) のシナリオでは、各ビデオフレームは数百もの小さな、密度が高く、部分的に隠されたオブジェクトを含んでいる。マルチタスク学習による拡散に基づくDVOSの半時間的アプローチを提案する。提案手法の有用性と有効性を示すために, ハンドヘルドビデオとドローンキャプチャビデオの小麦頭部分割のためのDVOSモデルを開発した。
論文参考訳（メタデータ） (2024-06-07T17:58:36Z)
Camera-Driven Representation Learning for Unsupervised Domain Adaptive Person Re-identification [33.25577310265293]
本稿では,カメララベルを利用したカリキュラム学習フレームワークを導入し,情報ソースからターゲットドメインへの知識の伝達を段階的に行う。各カリキュラムシーケンスに対して、ターゲット領域の人物画像の擬似ラベルを生成し、教師付き方法でreIDモデルをトレーニングする。擬似ラベルはカメラに対して非常に偏りがあり、同一のカメラから得られた人物画像は、異なるIDであっても同一の擬似ラベルを持つ可能性が高いことを示唆している。
論文参考訳（メタデータ） (2023-08-23T04:01:56Z)
Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows [83.54243912535667]
まず、コンサート、スポーツゲーム、ガラショー、コンテストを含む4つの異なるシナリオを用いて、この設定に関する新しいベンチマークを収集する。 14時間編集されたビデオに貢献する88時間の生のビデオが含まれている。歴史的ショットやその他の視点からのヒントを利用してショット遷移決定を行う新しいアプローチである時間的・文脈的変換器を提案する。
論文参考訳（メタデータ） (2022-10-17T04:11:23Z)
Domain Adaptive Video Segmentation via Temporal Pseudo Supervision [46.38660541271893]
ビデオセマンティックセグメンテーションは、ラベル付きソースドメインから未ラベルのターゲットドメインに適応することで、制約をラベル付けするデータを緩和することができる。我々は,対象映像から表現を効果的に表現するための一貫性トレーニングのアイデアを探索する,シンプルかつ効果的な方法である時間的擬似監督(TPS)を設計する。 TPSは実装が簡単で、訓練も安定しており、最先端技術と比較して優れた映像精度を実現する。
論文参考訳（メタデータ） (2022-07-06T00:36:14Z)
Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文参考訳（メタデータ） (2022-05-03T15:03:44Z)
DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World Domain Adaptation of Semantic Segmentation [9.984696742463628]
本研究は,インターネットから収集した道路シーン映像の領域適応手法をベンチマークするための,新しいマルチドメインデータセットを提示する。データセットは、人間の主観的判断と既存の道路シーンデータセットを用いて判断される異常スコアという2つの基準に基づいて、多様なシーン/ドメインをカバーするために選択された100本のビデオに対するピクセルレベルのアノテーションで構成されている。
論文参考訳（メタデータ） (2021-01-30T04:43:22Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)
Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in Video-Based Face Recognition [8.220945563455848]
新しいビデオカメラでキャプチャしたラベルのないトラックレットを用いて、シームズネットワークのCNN埋め込みに適応する新しいディープドメイン適応(DA)法を提案する。提案手法は,異なるトレーニングシナリオ下での深層シームズネットワークのトレーニングに使用される。
論文参考訳（メタデータ） (2020-02-11T05:06:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。