論文の概要: Multimodal active speaker detection and virtual cinematography for video
conferencing
- arxiv url: http://arxiv.org/abs/2002.03977v3
- Date: Tue, 24 May 2022 22:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:27:38.214479
- Title: Multimodal active speaker detection and virtual cinematography for video
conferencing
- Title(参考訳): ビデオ会議のためのマルチモーダル能動話者検出と仮想撮影
- Authors: Ross Cutler, Ramin Mehran, Sam Johnson, Cha Zhang, Adam Kirk, Oliver
Whyte, Adarsh Kowdle
- Abstract要約: アクティブスピーカー検出(ASD)と仮想シネマトグラフィ(VC)は、ビデオ会議のリモートユーザエクスペリエンスを大幅に改善することができる。
本稿では,1-5スケールの主観的評価に基づいて,専門撮影技師の0.3MOS以内の自動化されたASDとVCについて述べる。
- 参考スコア(独自算出の注目度): 15.846255315264264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active speaker detection (ASD) and virtual cinematography (VC) can
significantly improve the remote user experience of a video conference by
automatically panning, tilting and zooming of a video conferencing camera:
users subjectively rate an expert video cinematographer's video significantly
higher than unedited video. We describe a new automated ASD and VC that
performs within 0.3 MOS of an expert cinematographer based on subjective
ratings with a 1-5 scale. This system uses a 4K wide-FOV camera, a depth
camera, and a microphone array; it extracts features from each modality and
trains an ASD using an AdaBoost machine learning system that is very efficient
and runs in real-time. A VC is similarly trained using machine learning to
optimize the subjective quality of the overall experience. To avoid distracting
the room participants and reduce switching latency the system has no moving
parts -- the VC works by cropping and zooming the 4K wide-FOV video stream. The
system was tuned and evaluated using extensive crowdsourcing techniques and
evaluated on a dataset with N=100 meetings, each 2-5 minutes in length.
- Abstract(参考訳): アクティブ・スピーカー検出(asd)とバーチャル・シネマトグラフィー(vc)は、ビデオ会議カメラを自動的にパンしたり傾けたりズームしたりすることで、ビデオ会議の遠隔ユーザ体験を大幅に改善することができる。
本稿では,1-5スケールの主観的評価に基づいて,専門撮影技師の0.3MOS以内の自動化ASDとVCについて述べる。
このシステムは、4K広視野カメラ、ディープカメラ、マイクアレイを使用し、各モードから特徴を抽出し、非常に効率的でリアルタイムに実行されるAdaBoost機械学習システムを用いてASDを訓練する。
vcも同様に機械学習を使って、エクスペリエンス全体の主観的品質を最適化する訓練を行っている。
部屋の参加者の気を散らさないようにし、切り替えのレイテンシを低減するため、システムは可動部品を持たない。VCは4Kの広視野ビデオストリームをトリミングしてズームすることで機能する。
このシステムをクラウドソーシング技術を用いて調整,評価し,N=100のミーティングを2~5分間隔でデータセット上で評価した。
関連論文リスト
- ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation [9.508130039534205]
ビュー外セマンティックセグメンテーションタスクとセグメンテーション・ビジュアリー・ビュー(SBV)を提案する。
SBVは教師-学生蒸留モデル(Omni2Ego)を用いた聴覚情報を用いて、FoV以外の情報を見逃す視覚的モダリティを補う
このモデルは、パノラマ情報を利用する視覚教師と、8チャンネルのオーディオを持つ聴覚教師と、限られたFoVでビューを取り、FoV以外のオブジェクトに対してセマンティックセグメンテーションを生成するオーディオ視覚学生で構成されている。
論文 参考訳(メタデータ) (2023-12-14T06:17:15Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Dynamic Storyboard Generation in an Engine-based Virtual Environment for
Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。
形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。
候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文 参考訳(メタデータ) (2023-01-30T06:37:35Z) - Automatic Camera Control and Directing with an Ultra-High-Definition
Collaborative Recording System [0.5735035463793007]
複数のカメラアングルからイベントをキャプチャすることで、視聴者はそのイベントの最も完全で興味深い写真を得ることができる。
全方位カメラや広角カメラの導入により、イベントをより完全に捉えられるようになった。
イベントの複数の超高解像度ビデオストリームが与えられると、視覚的に喜ぶ一連のショットを生成することができるシステムを示す。
論文 参考訳(メタデータ) (2022-08-10T08:28:08Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。