論文の概要: Cross-Modal learning for Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2104.04598v2
- Date: Mon, 21 Jun 2021 10:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 10:58:10.671677
- Title: Cross-Modal learning for Audio-Visual Video Parsing
- Title(参考訳): 音声映像解析のためのクロスモーダル学習
- Authors: Jatin Lamba, Abhishek, Jayaprakash Akula, Rishabh Dabral, Preethi
Jyothi, Ganesh Ramakrishnan
- Abstract要約: 本稿では,映像からイベントを別々に分離するAVVPタスクに対する新しいアプローチを提案する。
AVVPは, 効果的なクロスモーダル学習を目的とした, 以下の手法の恩恵を受けることができることを示す。
- 参考スコア(独自算出の注目度): 30.331280948237428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel approach to the audio-visual video parsing
(AVVP) task that demarcates events from a video separately for audio and visual
modalities. The proposed parsing approach simultaneously detects the temporal
boundaries in terms of start and end times of such events. We show how AVVP can
benefit from the following techniques geared towards effective cross-modal
learning: (i) adversarial training and skip connections (ii) global context
aware attention and, (iii) self-supervised pretraining using an audio-video
grounding objective to obtain cross-modal audio-video representations. We
present extensive experimental evaluations on the Look, Listen, and Parse (LLP)
dataset and show that we outperform the state-of-the-art Hybrid Attention
Network (HAN) on all five metrics proposed for AVVP. We also present several
ablations to validate the effect of pretraining, global attention and
adversarial training.
- Abstract(参考訳): 本稿では,映像からイベントを分離した音声・視覚映像解析(avvp)タスクに対する新しいアプローチを提案する。
提案手法は,これらの事象の開始時刻と終了時刻の時間境界を同時に検出する。
本稿では,avvpが効果的なクロスモーダル学習を指向した手法を活用できることを示す。
(i)敵対的訓練とスキップ接続
(ii)グローバル・コンテクストを意識した注意と
(iii)クロスモーダルなオーディオ・ビデオ表現を得るために、オーディオ・ビデオの接地目的を用いた自己教師付き事前学習。
我々は、Look, Listen, Parse(LLP)データセットに関する広範な実験的評価を行い、AVVPが提案する5つの指標すべてにおいて、最先端のハイブリッドアテンションネットワーク(HAN)よりも優れていることを示す。
また,プレトレーニング,グローバルアテンション,対人訓練の効果を検証するために,いくつかの試みを行った。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing [23.100602876056165]
弱教師付き音声視覚ビデオ解析手法は,ビデオレベルラベルのみを用いて,可聴性のみ,可視性のみ,可視性のみ,可聴性のみを検出することを目的としている。
埋め込み空間におけるクロスモーダルコンテキストの統合を最適化する新しい学習フレームワークであるCoLeaFを提案する。
我々の実験は、CoLeaFがデータセット上で平均1.9%と2.4%のFスコアで最先端の結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-05-17T10:51:15Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。