論文の概要: A$^{2}$V-SLP: Alignment-Aware Variational Modeling for Disentangled Sign Language Production
- arxiv url: http://arxiv.org/abs/2602.11861v1
- Date: Thu, 12 Feb 2026 12:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.797778
- Title: A$^{2}$V-SLP: Alignment-Aware Variational Modeling for Disentangled Sign Language Production
- Title(参考訳): A$^{2}$V-SLP:非交叉手話生成のためのアライメント・アウェア変分モデル
- Authors: Sümeyye Meryem Taşyürek, Enis Mücahid İskender, Hacer Yalim Keles,
- Abstract要約: A$2$V-SLPは、決定論的埋め込みよりも、調音的に非絡み合った潜在分布を学習する。
不整合変分オートコーダは、接地トラス符号ポーズシーケンスを符号化し、調音器固有の平均および分散ベクトルを抽出する。
- 参考スコア(独自算出の注目度): 0.9384603486206738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building upon recent structural disentanglement frameworks for sign language production, we propose A$^{2}$V-SLP, an alignment-aware variational framework that learns articulator-wise disentangled latent distributions rather than deterministic embeddings. A disentangled Variational Autoencoder (VAE) encodes ground-truth sign pose sequences and extracts articulator-specific mean and variance vectors, which are used as distributional supervision for training a non-autoregressive Transformer. Given text embeddings, the Transformer predicts both latent means and log-variances, while the VAE decoder reconstructs the final sign pose sequences through stochastic sampling at the decoding stage. This formulation maintains articulator-level representations by avoiding deterministic latent collapse through distributional latent modeling. In addition, we integrate a gloss attention mechanism to strengthen alignment between linguistic input and articulated motion. Experimental results show consistent gains over deterministic latent regression, achieving state-of-the-art back-translation performance and improved motion realism in a fully gloss-free setting.
- Abstract(参考訳): 本稿では,手話生成のための最近の構造的非絡合フレームワークを基盤として,決定論的埋め込みではなく,調音的に不絡合分布を学習するアライメント対応の変分フレームワークであるA$^{2}$V-SLPを提案する。
不整合変分自動符号化器(VAE)は、非自己回帰変換器を訓練するための分布監督法として用いられる、接地トラス符号ポーズシーケンスを符号化し、明瞭な平均および分散ベクトルを抽出する。
テキスト埋め込みが与えられた場合、Transformerは潜時手段とログ分散の両方を予測し、VAEデコーダは復号段階で確率的サンプリングによって最終サインポーズシーケンスを再構成する。
この定式化は、分布潜在モデリングによる決定論的潜在崩壊を避けることによって、調音レベル表現を維持している。
さらに,言語入力と調音運動のアライメントを強化するために,光沢アテンション機構を統合した。
実験結果から, 決定論的遅延回帰よりも一貫した利得, 最先端のバックトランスレーション性能を実現し, 完全に光沢のない環境での運動リアリズムを向上した。
関連論文リスト
- Disentangle and Regularize: Sign Language Production with Articulator-Based Disentanglement and Channel-Aware Regularization [0.9384603486206738]
我々は,手話のポーズをコンパクトな潜在空間にエンコードするポーズオートエンコーダを,調音器によるアンタングルメント戦略を用いて訓練する。
次に、非自己回帰変換器デコーダをトレーニングし、入力文の単語レベルのテキスト埋め込みからこれらの潜在表現を予測する。
提案手法は光沢の監視や事前訓練に頼らず,PHOENIX14TおよびCSL-Dailyデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2025-04-09T06:14:19Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - How to train your VAE [0.0]
変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。
本稿では,ELBO(エビデンス・ロウアー・バウンド)における重要な構成要素であるKLディバージェンス(Kulback-Leibler)の解釈について検討する。
提案手法は, ELBOを後続確率のガウス混合体で再定義し, 正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。
論文 参考訳(メタデータ) (2023-09-22T19:52:28Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。