論文の概要: Cross modal video representations for weakly supervised active speaker
localization
- arxiv url: http://arxiv.org/abs/2003.04358v2
- Date: Wed, 3 Nov 2021 22:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:28:55.071195
- Title: Cross modal video representations for weakly supervised active speaker
localization
- Title(参考訳): 弱教師付きアクティブ話者定位のためのクロスモーダル映像表現
- Authors: Rahul Sharma, Krishna Somandepalli and Shrikanth Narayanan
- Abstract要約: 視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
- 参考スコア(独自算出の注目度): 39.67239953795999
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An objective understanding of media depictions, such as inclusive portrayals
of how much someone is heard and seen on screen such as in film and television,
requires the machines to discern automatically who, when, how, and where
someone is talking, and not. Speaker activity can be automatically discerned
from the rich multimodal information present in the media content. This is
however a challenging problem due to the vast variety and contextual
variability in the media content, and the lack of labeled data. In this work,
we present a cross-modal neural network for learning visual representations,
which have implicit information pertaining to the spatial location of a speaker
in the visual frames. Avoiding the need for manual annotations for active
speakers in visual frames, acquiring of which is very expensive, we present a
weakly supervised system for the task of localizing active speakers in movie
content. We use the learned cross-modal visual representations, and provide
weak supervision from movie subtitles acting as a proxy for voice activity,
thus requiring no manual annotations. We evaluate the performance of the
proposed system on the AVA active speaker dataset and demonstrate the
effectiveness of the cross-modal embeddings for localizing active speakers in
comparison to fully supervised systems. We also demonstrate state-of-the-art
performance for the task of voice activity detection in an audio-visual
framework, especially when speech is accompanied by noise and music.
- Abstract(参考訳): 映画やテレビなどの画面で誰かがどれだけ聞こえているかの包括的描写のようなメディア描写を客観的に理解するためには、マシンは、誰がいつ、どのように、どこで話しているのかを自動的に識別する必要がある。
メディアコンテンツに存在するリッチなマルチモーダル情報から話者活動を自動的に識別することができる。
しかし、メディアコンテンツの多様性とコンテキストの変動、ラベル付きデータの欠如などにより、これは難しい問題である。
本研究では,視覚フレーム内の話者の空間的位置に関する暗黙的な情報を持つ視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
視覚フレームにおけるアクティブスピーカーの手動アノテーションの必要性を回避し,その取得は非常に費用がかかるため,映像コンテンツ中のアクティブスピーカーのローカライズを行うための弱教師付きシステムを提案する。
学習したクロスモーダルな視覚表現を使用し、音声活動のプロキシとして働く映画の字幕の監督が弱いため、手動のアノテーションは不要である。
本稿では, avaアクティブ話者データセットにおける提案システムの性能を評価し, 完全教師付きシステムと比較して, アクティブ話者のローカライズにおけるクロスモーダル埋め込みの有効性を示す。
また,特に音声に雑音や音楽が伴う場合において,聴覚・視覚的枠組みを用いた音声活動検出作業の最先端性能を示す。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection [37.28070242751129]
ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T14:46:00Z) - Unsupervised active speaker detection in media content using cross-modal
information [37.28070242751129]
テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
音声と顔の話者識別情報を活用し, アクティブな話者検出を音声-顔の割り当てタスクとして定式化する。
最先端の完全教師付き手法に対する競合性能を示す。
論文 参考訳(メタデータ) (2022-09-24T00:51:38Z) - Audio-video fusion strategies for active speaker detection in meetings [5.61861182374067]
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-09T08:20:52Z) - Using Active Speaker Faces for Diarization in TV shows [37.28070242751129]
アクティブな話者面に顔クラスタリングを行い、最先端の音声ベースダイアリゼーション法と比較して優れた話者ダイアリゼーション性能を示す。
また、適度に高性能なアクティブスピーカーシステムが、オーディオベースのダイアリゼーションシステムより優れていることも観察した。
論文 参考訳(メタデータ) (2022-03-30T00:37:19Z) - Look Who's Talking: Active Speaker Detection in the Wild [30.22352874520012]
野生におけるアクティブな話者検出のための新しい音声視覚データセットを提案する。
Active Speakers in the Wild (ASW)データセットには、ビデオと、密集した音声活動ラベルを持つ音声セグメントが含まれている。
ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントをセミオートマチックにアノテートする。
論文 参考訳(メタデータ) (2021-08-17T14:16:56Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。