論文の概要: Towards Skeletal and Signer Noise Reduction in Sign Language Production via Quaternion-Based Pose Encoding and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2508.14574v1
- Date: Wed, 20 Aug 2025 09:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.419876
- Title: Towards Skeletal and Signer Noise Reduction in Sign Language Production via Quaternion-Based Pose Encoding and Contrastive Learning
- Title(参考訳): 四元数に基づく詩エンコーディングとコントラスト学習による手話生成における骨格・手話雑音低減に向けて
- Authors: Guilhem Fauré, Mostafa Sadeghi, Sam Bigeard, Slim Ouni,
- Abstract要約: 本稿では,標準プログレッシブトランスフォーマー(PT)アーキテクチャの2つの拡張を提案する。
まず,四元数空間における骨回転を用いたポーズを符号化し,ジオデシックな損失を生かし,角関節運動の精度と明瞭さを向上させる。
第2に、グロスオーバーラップまたはSBERTベースの文類似性を用いて、意味的類似性による構造デコーダの埋め込みに対照的な損失を導入する。
- 参考スコア(独自算出の注目度): 7.740338361213371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges in neural sign language production (SLP) lies in the high intra-class variability of signs, arising from signer morphology and stylistic variety in the training data. To improve robustness to such variations, we propose two enhancements to the standard Progressive Transformers (PT) architecture (Saunders et al., 2020). First, we encode poses using bone rotations in quaternion space and train with a geodesic loss to improve the accuracy and clarity of angular joint movements. Second, we introduce a contrastive loss to structure decoder embeddings by semantic similarity, using either gloss overlap or SBERT-based sentence similarity, aiming to filter out anatomical and stylistic features that do not convey relevant semantic information. On the Phoenix14T dataset, the contrastive loss alone yields a 16% improvement in Probability of Correct Keypoint over the PT baseline. When combined with quaternion-based pose encoding, the model achieves a 6% reduction in Mean Bone Angle Error. These results point to the benefit of incorporating skeletal structure modeling and semantically guided contrastive objectives on sign pose representations into the training of Transformer-based SLP models.
- Abstract(参考訳): ニューラルサイン言語生産(SLP)の主な課題の1つは、トレーニングデータにおけるシグナー形態とスタイル的多様性から生じる、記号のクラス内の高いばらつきにある。
このような変動に対するロバスト性を改善するため、標準プログレッシブトランスフォーマー(PT)アーキテクチャの2つの拡張を提案する(Saunders et al , 2020)。
まず,四元数空間における骨回転を用いたポーズを符号化し,ジオデシックな損失を生かし,角関節運動の精度と明瞭さを向上させる。
第2に,意味情報を伝達しない解剖学的特徴や構造的特徴を抽出することを目的とした,グロスオーバーラップやSBERTに基づく文類似性を用いて,意味的類似性による構造的デコーダの埋め込みに対照的な損失を導入する。
Phoenix14Tデータセットでは、対照的な損失だけで、PTベースラインよりも正しいキーポイントの確率が16%向上する。
四元数に基づくポーズ符号化と組み合わせると、平均骨角誤差が6%減少する。
これらの結果から,手話表現における骨格構造モデリングと意味的指導によるコントラスト的目的をトランスフォーマーに基づくSLPモデルのトレーニングに組み込むことの利点が示唆された。
関連論文リスト
- Exploring Pose-based Sign Language Translation: Ablation Studies and Attention Insights [0.5277756703318045]
手話翻訳(SLT)は、独立した認識アプローチから、複雑で連続的な光沢のない翻訳システムへと大きく進化してきた。
本稿では,ポーズベースのデータ前処理技術がSLT性能に与える影響について検討する。
我々は変換器をベースとしたアーキテクチャを採用し、修正されたT5エンコーダデコーダモデルを用いてポーズ表現を処理した。
論文 参考訳(メタデータ) (2025-07-02T09:36:26Z) - Disentangle and Regularize: Sign Language Production with Articulator-Based Disentanglement and Channel-Aware Regularization [1.8024397171920885]
我々は,手話のポーズをコンパクトな潜在空間にエンコードするポーズオートエンコーダを,調音器によるアンタングルメント戦略を用いて訓練する。
次に、非自己回帰変換器デコーダをトレーニングし、文レベルのテキスト埋め込みからこれらの潜在表現を予測する。
提案手法は光沢の監視や事前訓練に頼らず,PHOENIX14TおよびCSL-DailyPHOENIXデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-04-09T06:14:19Z) - It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。
この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。
2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文 参考訳(メタデータ) (2024-11-16T08:54:27Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Translation Consistent Semi-supervised Segmentation for 3D Medical Images [25.126639911618994]
3次元医用画像分割法は成功したが, 大量のボクセルレベルのデータへの依存は不利である。
半教師付き学習(SSL)は、大きなラベル付きデータセットと小さなラベル付きデータセットでモデルをトレーニングすることで、この問題を解決する。
本稿では,一貫性学習型SSL手法であるTranslation Consistent Co-training (TraCoCo)を紹介する。
論文 参考訳(メタデータ) (2022-03-28T06:31:39Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。