論文の概要: TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2309.12306v1
- Date: Thu, 21 Sep 2023 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 13:36:00.007375
- Title: TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning
- Title(参考訳): TalkNCE: 対話型コントラスト学習によるアクティブ話者検出の改善
- Authors: Chaeyoung Jung, Suyeon Lee, Kihyun Nam, Kyeongha Rho, You Jin Kim,
Youngjoon Jang, Joon Son Chung
- Abstract要約: アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。
提案するTalkNCEは,新しい会話認識型コントラスト損失である。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.673602262069531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is Active Speaker Detection (ASD), a task to determine
whether a person is speaking or not in a series of video frames. Previous works
have dealt with the task by exploring network architectures while learning
effective representations has been less explored. In this work, we propose
TalkNCE, a novel talk-aware contrastive loss. The loss is only applied to part
of the full segments where a person on the screen is actually speaking. This
encourages the model to learn effective representations through the natural
correspondence of speech and facial movements. Our loss can be jointly
optimized with the existing objectives for training ASD models without the need
for additional supervision or training data. The experiments demonstrate that
our loss can be easily integrated into the existing ASD frameworks, improving
their performance. Our method achieves state-of-the-art performances on
AVA-ActiveSpeaker and ASW datasets.
- Abstract(参考訳): この研究の目標は、ある人が話しているかどうかを一連のビデオフレームで判断するタスクであるactive speaker detection(asd)である。
ネットワークアーキテクチャを探索し、効果的な表現を学習する以前の作業は、あまり研究されていない。
本研究では,新しい会話認識型コントラスト損失であるTalkNCEを提案する。
損失は、画面上の人が実際に話している全セグメントの一部にのみ適用される。
これにより、モデルが音声と顔の動きの自然な対応を通して効果的な表現を学ぶことを奨励する。
当社の損失は、追加の監視やトレーニングデータなしで、既存のasdモデルのトレーニング目標と共同で最適化することができます。
実験では、損失が既存のASDフレームワークに簡単に統合でき、パフォーマンスが向上することを示した。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Audio-video fusion strategies for active speaker detection in meetings [5.61861182374067]
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-09T08:20:52Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。