論文の概要: Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation
- arxiv url: http://arxiv.org/abs/2504.05746v1
- Date: Tue, 08 Apr 2025 07:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:48.808049
- Title: Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation
- Title(参考訳): 音声駆動型ワンショット音声頭部アニメーションのための時間的音声と視覚の相関埋め込み
- Authors: Zhihua Xu, Tianshui Chen, Zhijing Yang, Siyuan Peng, Keze Wang, Liang Lin,
- Abstract要約: 従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
- 参考スコア(独自算出の注目度): 62.218932509432314
- License:
- Abstract: The paramount challenge in audio-driven One-shot Talking Head Animation (ADOS-THA) lies in capturing subtle imperceptible changes between adjacent video frames. Inherently, the temporal relationship of adjacent audio clips is highly correlated with that of the corresponding adjacent video frames, offering supplementary information that can be pivotal for guiding and supervising talking head animations. In this work, we propose to learn audio-visual correlations and integrate the correlations to help enhance feature representation and regularize final generation by a novel Temporal Audio-Visual Correlation Embedding (TAVCE) framework. Specifically, it first learns an audio-visual temporal correlation metric, ensuring the temporal audio relationships of adjacent clips are aligned with the temporal visual relationships of corresponding adjacent video frames. Since the temporal audio relationship contains aligned information about the visual frame, we first integrate it to guide learning more representative features via a simple yet effective channel attention mechanism. During training, we also use the alignment correlations as an additional objective to supervise generating visual frames. We conduct extensive experiments on several publicly available benchmarks (i.e., HDTF, LRW, VoxCeleb1, and VoxCeleb2) to demonstrate its superiority over existing leading algorithms.
- Abstract(参考訳): 音声駆動のワンショットトーキングヘッドアニメーション(ADOS-THA)における最大の課題は、隣接するビデオフレーム間の微妙な変化を捉えることである。
連続した音声クリップの時間的関係は、対応する映像フレームの時間的関係と強く相関し、音声ヘッドアニメーションの誘導と監督に重要な補助情報を提供する。
本研究では,音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と時間的音声と視覚の相関埋め込み(TAVCE)フレームワークによる最終生成の正規化を支援することを提案する。
具体的には、まず、隣接するクリップの時間的音声関係が、対応するビデオフレームの時間的視覚関係と一致していることを確認する。
時間的オーディオ関係には、視覚的フレームに関する情報が整合しているため、我々はまず、シンプルで効果的なチャネルアテンション機構を通じて、より代表的な特徴を学習するためのガイドとして統合する。
トレーニング中は、アライメント相関を付加目的として使用し、視覚的フレームの生成を監督する。
我々は、既存の先行アルゴリズムよりも優れていることを示すために、いくつかの公開ベンチマーク(HDTF、LRW、VoxCeleb1、VoxCeleb2)で広範な実験を行った。
関連論文リスト
- Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation [39.38821481268827]
AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。
現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。
本稿では,協調型ハイブリッドプロパゲータフレームワーク(Co-Prop)を提案する。
論文 参考訳(メタデータ) (2024-12-11T07:33:18Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。