論文の概要: STSA: Spatial-Temporal Semantic Alignment for Visual Dubbing
- arxiv url: http://arxiv.org/abs/2503.23039v1
- Date: Sat, 29 Mar 2025 11:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:35.737291
- Title: STSA: Spatial-Temporal Semantic Alignment for Visual Dubbing
- Title(参考訳): STSA:ビジュアルダビングのための空間的時間的セマンティックアライメント
- Authors: Zijun Ding, Mingdie Xiong, Congcong Zhu, Jingrun Chen,
- Abstract要約: 空間的領域と時間的領域とのセマンティックな特徴の整合性は、顔の動きの安定化に有望なアプローチである、と我々は主張する。
本稿では,2経路アライメント機構と識別可能な意味表現を導入した時空間意味アライメント(STSA)手法を提案する。
- 参考スコア(独自算出の注目度): 2.231167375820083
- License:
- Abstract: Existing audio-driven visual dubbing methods have achieved great success. Despite this, we observe that the semantic ambiguity between spatial and temporal domains significantly degrades the synthesis stability for the dynamic faces. We argue that aligning the semantic features from spatial and temporal domains is a promising approach to stabilizing facial motion. To achieve this, we propose a Spatial-Temporal Semantic Alignment (STSA) method, which introduces a dual-path alignment mechanism and a differentiable semantic representation. The former leverages a Consistent Information Learning (CIL) module to maximize the mutual information at multiple scales, thereby reducing the manifold differences between spatial and temporal domains. The latter utilizes probabilistic heatmap as ambiguity-tolerant guidance to avoid the abnormal dynamics of the synthesized faces caused by slight semantic jittering. Extensive experimental results demonstrate the superiority of the proposed STSA, especially in terms of image quality and synthesis stability. Pre-trained weights and inference code are available at https://github.com/SCAILab-USTC/STSA.
- Abstract(参考訳): 既存の音声駆動型視覚ダビング法は大きな成功を収めた。
それにもかかわらず、空間的領域と時間的領域間の意味的あいまいさは動的面の合成安定性を著しく低下させる。
空間的領域と時間的領域とのセマンティックな特徴の整合性は、顔の動きの安定化に有望なアプローチである、と我々は主張する。
これを実現するために,双対パスアライメント機構と識別可能な意味表現を導入した時空間意味アライメント(STSA)手法を提案する。
前者は一貫性情報学習(Consistent Information Learning, CIL)モジュールを活用し、複数のスケールで相互情報を最大化し、空間領域と時間領域の多様体差を低減する。
後者は確率的ヒートマップをあいまいさ耐性誘導として利用し、微妙なセマンティック・ジッタリングによる合成顔の異常なダイナミクスを避ける。
特に画像品質と合成安定性の点で,STSAの優位性を示した。
トレーニング済みのウェイトと推論コードはhttps://github.com/SCAILab-USTC/STSA.comで公開されている。
関連論文リスト
- IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - Precise Facial Landmark Detection by Dynamic Semantic Aggregation Transformer [29.484887366344363]
ディープニューラルネットワーク法は、顔アライメント分野において重要な役割を担っている。
本稿では,より差別的で代表的な特徴学習のための動的セマンティック・アグリゲーション・トランスフォーマ(DSAT)を提案する。
提案するDSATは,文学における最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2024-12-01T09:20:32Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction [36.77135502344546]
本稿では,新しいST-SSL(Spatio-Supervised Learning)トラフィック予測フレームワークを提案する。
我々のST-SSLは、時空間の畳み込みによって、空間と時間にまたがる情報を符号化する統合モジュール上に構築されている。
4つのベンチマークデータセットの実験では、ST-SSLは様々な最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2022-12-07T10:02:01Z) - Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction [40.20696709103593]
本稿では,動的および静的な文脈認識型動作予測器(DSCMP)の新たな機構であるtextiti.e.を設計する。
豊富な情報をLong-Short-term-Memory (LSTM)に統合する。
エージェント間の動的相互作用を、空間的位置と時間的コヒーレンスの両方を学ぶことによってモデル化する。
潜在変数を推論することでシーンのコンテキストをキャプチャし、意味のあるセマンティックなシーンレイアウトを持つマルチモーダルな予測を可能にする。
論文 参考訳(メタデータ) (2020-08-03T11:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。