論文の概要: Multi-modality Associative Bridging through Memory: Speech Sound
Recollected from Face Video
- arxiv url: http://arxiv.org/abs/2204.01265v1
- Date: Mon, 4 Apr 2022 06:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:16:51.939685
- Title: Multi-modality Associative Bridging through Memory: Speech Sound
Recollected from Face Video
- Title(参考訳): 記憶による多モード連想ブリッジ:顔映像からの音声の再生
- Authors: Minsu Kim, Joanna Hong, Se Jin Park, Yong Man Ro
- Abstract要約: 我々は、ソース(ビジュアル)とターゲット(オーディオ)のモーダル表現を格納するメモリネットワークを利用する。
次に、ソースとターゲットメモリ間の連想ブリッジを構築する。
提案手法を唇読解とサイレントビデオからの再構成の2つに適用する。
- 参考スコア(独自算出の注目度): 29.775211740305906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel audio-visual multi-modal bridging
framework that can utilize both audio and visual information, even with
uni-modal inputs. We exploit a memory network that stores source (i.e., visual)
and target (i.e., audio) modal representations, where source modal
representation is what we are given, and target modal representations are what
we want to obtain from the memory network. We then construct an associative
bridge between source and target memories that considers the interrelationship
between the two memories. By learning the interrelationship through the
associative bridge, the proposed bridging framework is able to obtain the
target modal representations inside the memory network, even with the source
modal input only, and it provides rich information for its downstream tasks. We
apply the proposed framework to two tasks: lip reading and speech
reconstruction from silent video. Through the proposed associative bridge and
modality-specific memories, each task knowledge is enriched with the recalled
audio context, achieving state-of-the-art performance. We also verify that the
associative bridge properly relates the source and target memories.
- Abstract(参考訳): 本稿では,単一モーダル入力でも音声情報と視覚情報の両方を利用することのできる,新しい視聴覚マルチモーダルブリッジフレームワークを提案する。
我々は、ソース(ヴィジュアル)とターゲット(オーディオ)のモーダル表現を格納するメモリネットワークを利用しており、そこではソースのモーダル表現が与えられ、ターゲットのモーダル表現がメモリネットワークから取得したいものとなる。
次に、この2つの記憶の相互関係を考慮した、ソースとターゲットの記憶間の連想ブリッジを構築する。
連想ブリッジを通じて相互関係を学習することにより,提案するブリッジフレームワークは,ソースモーダル入力のみであっても,メモリネットワーク内のターゲットモーダル表現を取得でき,下流タスクに豊富な情報を提供する。
提案手法を,サイレントビデオからの唇読解と音声再構成の2つの課題に適用する。
提案する連想ブリッジとモーダリティー特有のメモリを通じて、各タスクの知識は、リコールされたオーディオコンテキストで強化され、最先端のパフォーマンスを達成する。
また,アソシエイトブリッジがソースとターゲット記憶を適切に関連付けていることも確認した。
関連論文リスト
- Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Memories are One-to-Many Mapping Alleviators in Talking Face Generation [31.55290250247604]
対話型顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。
本稿では,失われた情報を暗黙記憶と明示記憶で補完するMemFaceを提案する。
実験結果から,提案したMemFaceは,複数のシナリオにまたがる最先端のすべての結果を上回っていることがわかった。
論文 参考訳(メタデータ) (2022-12-09T17:45:36Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。