論文の概要: Deep Video Inpainting Guided by Audio-Visual Self-Supervision
- arxiv url: http://arxiv.org/abs/2310.07663v1
- Date: Wed, 11 Oct 2023 17:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:12:09.104482
- Title: Deep Video Inpainting Guided by Audio-Visual Self-Supervision
- Title(参考訳): 視聴覚セルフスーパービジョンによる深部映像インペインティング
- Authors: Kyuyeon Kim, Junsik Jung, Woo Jae Kim, Sung-Eui Yoon
- Abstract要約: 人間は、オーディオ視覚イベントに関する以前の知識に基づいて、聴覚情報からシーンを簡単に想像することができる。
本稿では,深層学習モデルにおける人間の本能を模倣し,映像の画質向上を図る。
- 参考スコア(独自算出の注目度): 25.841796702924444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can easily imagine a scene from auditory information based on their
prior knowledge of audio-visual events. In this paper, we mimic this innate
human ability in deep learning models to improve the quality of video
inpainting. To implement the prior knowledge, we first train the audio-visual
network, which learns the correspondence between auditory and visual
information. Then, the audio-visual network is employed as a guider that
conveys the prior knowledge of audio-visual correspondence to the video
inpainting network. This prior knowledge is transferred through our proposed
two novel losses: audio-visual attention loss and audio-visual pseudo-class
consistency loss. These two losses further improve the performance of the video
inpainting by encouraging the inpainting result to have a high correspondence
to its synchronized audio. Experimental results demonstrate that our proposed
method can restore a wider domain of video scenes and is particularly effective
when the sounding object in the scene is partially blinded.
- Abstract(参考訳): 人間は、視聴覚イベントの事前知識に基づいて、聴覚情報からシーンを簡単に想像することができる。
本稿では,深層学習モデルにおける人間の本能を模倣し,映像の画質向上を図る。
先行知識を実装するために,まず聴覚情報と視覚情報との対応を学習する音声視覚ネットワークを訓練する。
そして、映像塗布ネットワークに先行する音声視覚対応の知識を伝えるガイドとして、オーディオ視覚ネットワークが使用される。
この事前知識は、音声視覚的注意損失と音声視覚的疑似クラス整合性損失という2つの新しい損失を通じて伝達される。
これら2つの損失は、インペインティング結果の同期音声への高い対応を奨励することにより、インペインティングのパフォーマンスをさらに向上させる。
実験により,提案手法がより広い領域の映像シーンを復元できることを示すとともに,映像中の聴覚物体が部分的に盲目した場合に特に有効であることを示す。
関連論文リスト
- AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Audio-Visual Speech Inpainting with Deep Learning [30.59696039318939]
音声信号に100msから1600msの間隔を印字し、視覚が異なる期間のギャップにもたらす貢献について検討した。
以上の結果から,音声のみの音声塗装手法の性能は,差が大きくなると急速に低下することがわかった。
マルチタスク学習が効果的であることは示していますが、パフォーマンスへの最大の貢献はビジョンによるものです。
論文 参考訳(メタデータ) (2020-10-09T13:23:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。