論文の概要: Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset
- arxiv url: http://arxiv.org/abs/2009.11204v2
- Date: Fri, 16 Oct 2020 15:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:19:03.064680
- Title: Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset
- Title(参考訳): 自動注釈付きデータセットによる視覚活動検出の学習
- Authors: Sylvain Guy, St\'ephane Lathuili\`ere, Pablo Mesejo and Radu Horaud
- Abstract要約: 視覚的音声活動検出(V-VAD)は、人が話しているかどうかを予測するために視覚的特徴を使用する。
本稿では,V-VADのための2つの深いアーキテクチャを提案し,その1つは顔のランドマークに基づくもので,もう1つは光学的流れに基づくものである。
我々は、WildVVADで非常に大きなデータセットを自動生成し、注釈付けするための新しい手法を紹介します。
- 参考スコア(独自算出の注目度): 20.725871972294236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual voice activity detection (V-VAD) uses visual features to predict
whether a person is speaking or not. V-VAD is useful whenever audio VAD (A-VAD)
is inefficient either because the acoustic signal is difficult to analyze or
because it is simply missing. We propose two deep architectures for V-VAD, one
based on facial landmarks and one based on optical flow. Moreover, available
datasets, used for learning and for testing V-VAD, lack content variability. We
introduce a novel methodology to automatically create and annotate very large
datasets in-the-wild -- WildVVAD -- based on combining A-VAD with face
detection and tracking. A thorough empirical evaluation shows the advantage of
training the proposed deep V-VAD models with this dataset.
- Abstract(参考訳): 視覚音声アクティビティ検出(v-vad)は、人が話しているかどうかを予測するのに視覚機能を使用する。
V-VADは、音響信号の分析が難しいか、単に欠落しているため、オーディオVAD(A-VAD)が非効率である場合に役立つ。
本稿では,V-VADのための2つの深いアーキテクチャを提案する。
さらに、学習やV-VADのテストに使用される利用可能なデータセットには、コンテンツのばらつきがない。
我々は、A-VADと顔検出と追跡を組み合わせることで、非常に大きなデータセット(WildVVAD)を自動的に作成し、注釈付けする新しい手法を紹介します。
詳細な経験的評価は、提案した深部V-VADモデルをこのデータセットでトレーニングする利点を示している。
関連論文リスト
- UEVAVD: A Dataset for Developing UAV's Eye View Active Object Detection [13.208447570946173]
排除は、UAVベースの物体検出に挑戦する長年の困難である。
Active Object Detection (AOD)は、この目的を達成する効果的な方法を提供する。
我々は、UAV AOD問題の研究を促進するために、UAVの目視アクティブビジョンデータセットUEVAVDをリリースする。
論文 参考訳(メタデータ) (2024-11-07T01:10:05Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - DeepVATS: Deep Visual Analytics for Time Series [7.822594828788055]
私たちは、Deep Visual Analyticsの分野を時系列データにもたらすオープンソースのツールであるDeepVATSを紹介します。
DeepVATSは、自己監督的な方法で、時系列のパッチを再構築するマスク付き時系列自動エンコーダを訓練する。
本稿では,DeepVATSの有効性を検証する結果について報告する。
論文 参考訳(メタデータ) (2023-02-08T03:26:50Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Off-policy Imitation Learning from Visual Inputs [83.22342811160114]
本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-11-08T09:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。