論文の概要: Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset
- arxiv url: http://arxiv.org/abs/2009.11204v2
- Date: Fri, 16 Oct 2020 15:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:19:03.064680
- Title: Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset
- Title(参考訳): 自動注釈付きデータセットによる視覚活動検出の学習
- Authors: Sylvain Guy, St\'ephane Lathuili\`ere, Pablo Mesejo and Radu Horaud
- Abstract要約: 視覚的音声活動検出(V-VAD)は、人が話しているかどうかを予測するために視覚的特徴を使用する。
本稿では,V-VADのための2つの深いアーキテクチャを提案し,その1つは顔のランドマークに基づくもので,もう1つは光学的流れに基づくものである。
我々は、WildVVADで非常に大きなデータセットを自動生成し、注釈付けするための新しい手法を紹介します。
- 参考スコア(独自算出の注目度): 20.725871972294236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual voice activity detection (V-VAD) uses visual features to predict
whether a person is speaking or not. V-VAD is useful whenever audio VAD (A-VAD)
is inefficient either because the acoustic signal is difficult to analyze or
because it is simply missing. We propose two deep architectures for V-VAD, one
based on facial landmarks and one based on optical flow. Moreover, available
datasets, used for learning and for testing V-VAD, lack content variability. We
introduce a novel methodology to automatically create and annotate very large
datasets in-the-wild -- WildVVAD -- based on combining A-VAD with face
detection and tracking. A thorough empirical evaluation shows the advantage of
training the proposed deep V-VAD models with this dataset.
- Abstract(参考訳): 視覚音声アクティビティ検出(v-vad)は、人が話しているかどうかを予測するのに視覚機能を使用する。
V-VADは、音響信号の分析が難しいか、単に欠落しているため、オーディオVAD(A-VAD)が非効率である場合に役立つ。
本稿では,V-VADのための2つの深いアーキテクチャを提案する。
さらに、学習やV-VADのテストに使用される利用可能なデータセットには、コンテンツのばらつきがない。
我々は、A-VADと顔検出と追跡を組み合わせることで、非常に大きなデータセット(WildVVAD)を自動的に作成し、注釈付けする新しい手法を紹介します。
詳細な経験的評価は、提案した深部V-VADモデルをこのデータセットでトレーニングする利点を示している。
関連論文リスト
- VANP: Learning Where to See for Navigation with Self-Supervised
Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness [58.40419742596087]
PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - DeepVATS: Deep Visual Analytics for Time Series [7.822594828788055]
私たちは、Deep Visual Analyticsの分野を時系列データにもたらすオープンソースのツールであるDeepVATSを紹介します。
DeepVATSは、自己監督的な方法で、時系列のパッチを再構築するマスク付き時系列自動エンコーダを訓練する。
本稿では,DeepVATSの有効性を検証する結果について報告する。
論文 参考訳(メタデータ) (2023-02-08T03:26:50Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z) - EMA-VIO: Deep Visual-Inertial Odometry with External Memory Attention [5.144653418944836]
視覚慣性オドメトリー(VIO)アルゴリズムは、カメラと慣性センサーからの情報を利用して位置と翻訳を推定する。
最近のディープラーニングベースのVIOモデルは、データ駆動方式でポーズ情報を提供するため、注目を集めている。
状態推定のための視覚的特徴と慣性的特徴を効果的かつ効率的に組み合わせた,外部記憶に配慮した新しい学習ベースのVIOフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-18T07:05:36Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Off-policy Imitation Learning from Visual Inputs [83.22342811160114]
本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-11-08T09:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。