論文の概要: Disentangle and Regularize: Sign Language Production with Articulator-Based Disentanglement and Channel-Aware Regularization
- arxiv url: http://arxiv.org/abs/2504.06610v1
- Date: Wed, 09 Apr 2025 06:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 21:05:31.564217
- Title: Disentangle and Regularize: Sign Language Production with Articulator-Based Disentanglement and Channel-Aware Regularization
- Title(参考訳): ディスタングルと規則化:Articulator-based Disentanglement と Channel-Aware Regularization を用いた手話生成
- Authors: Sumeyye Meryem Tasyurek, Tugce Kiziltepe, Hacer Yalim Keles,
- Abstract要約: 我々は,手話のポーズをコンパクトな潜在空間にエンコードするポーズオートエンコーダを,調音器によるアンタングルメント戦略を用いて訓練する。
非自己回帰変換器デコーダは、文レベルのテキスト埋め込みから潜在表現を予測するために訓練される。
- 参考スコア(独自算出の注目度): 1.8024397171920885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we propose a simple gloss-free, transformer-based sign language production (SLP) framework that directly maps spoken-language text to sign pose sequences. We first train a pose autoencoder that encodes sign poses into a compact latent space using an articulator-based disentanglement strategy, where features corresponding to the face, right hand, left hand, and body are modeled separately to promote structured and interpretable representation learning. Next, a non-autoregressive transformer decoder is trained to predict these latent representations from sentence-level text embeddings. To guide this process, we apply channel-aware regularization by aligning predicted latent distributions with priors extracted from the ground-truth encodings using a KL-divergence loss. The contribution of each channel to the loss is weighted according to its associated articulator region, enabling the model to account for the relative importance of different articulators during training. Our approach does not rely on gloss supervision or pretrained models, and achieves state-of-the-art results on the PHOENIX14T dataset using only a modest training set.
- Abstract(参考訳): 本研究では,音声テキストを直接マッピングしてポーズ列に署名する,単純なグロスフリーなトランスフォーマーベース手話生成(SLP)フレームワークを提案する。
まず, 顔, 右手, 左手, 体に対応する特徴を別々にモデル化し, 構造化および解釈可能な表現学習を促進する。
次に、非自己回帰変換器デコーダをトレーニングし、文レベルのテキスト埋め込みからこれらの潜在表現を予測する。
この過程を導出するために、KL分割損失を用いた地下構造符号化から抽出した先行値と予測潜時分布を整列させることにより、チャネル認識正規化を適用する。
損失に対する各チャネルの寄与は、関連する調音器領域に応じて重み付けされ、訓練中に異なる調音器の相対的重要性をモデルが考慮することができる。
提案手法は光沢監督や事前学習モデルに頼らず,平凡なトレーニングセットのみを用いてPHOENIX14Tデータセットの最先端結果を実現する。
関連論文リスト
- SignRep: Enhancing Self-Supervised Sign Representations [30.008980708977095]
記号言語表現学習は、記号の複雑な時間的性質とラベル付きデータセットの不足により、ユニークな課題を提示する。
我々は手話表現学習のためのスケーラブルで自己指導型のフレームワークを導入する。
我々のモデルは、下流タスク中にキーポイントベースのモデルの制限を避けるため、推論中に骨格キーポイントを必要としない。
これは手話辞書の検索や手話翻訳に優れており、検索における標準的なMAE事前学習や骨格に基づく表現を超越している。
論文 参考訳(メタデータ) (2025-03-11T15:20:01Z) - Deep Understanding of Sign Language for Sign to Subtitle Alignment [13.96216152723074]
入力字幕を前処理するために、英国手話の文法規則を利用する。
信号の時間的位置を予測するためのモデルを最適化するために、選択的アライメント損失を設計する。
音声対応ラベルよりも高精度な、洗練された擬似ラベルによる自己学習を行う。
論文 参考訳(メタデータ) (2025-03-05T09:13:40Z) - SignAttention: On the Interpretability of Transformer Models for Sign Language Translation [2.079808290618441]
本稿では,トランスフォーマーを用いた手話翻訳モデルの最初の包括的解釈可能性解析について述べる。
モデル内の注意機構について検討し,視覚入力を逐次グルースで処理・調整する方法について考察する。
この研究はSLTモデルのより深い理解に寄与し、より透明で信頼性の高い翻訳システムを開発するための道を開いた。
論文 参考訳(メタデータ) (2024-10-18T14:38:37Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。