論文の概要: Sigma: Semantically Informative Pre-training for Skeleton-based Sign Language Understanding
- arxiv url: http://arxiv.org/abs/2509.21223v1
- Date: Thu, 25 Sep 2025 14:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.97907
- Title: Sigma: Semantically Informative Pre-training for Skeleton-based Sign Language Understanding
- Title(参考訳): Sigma: 骨格に基づく手話理解のための意味論的非形式的事前学習
- Authors: Muxin Pu, Mei Kuan Lim, Chun Yong Chong, Chen Change Loy,
- Abstract要約: 事前学習は手話理解タスクにおける伝達可能な特徴の学習に有効であることが証明されている。
1)視覚的特徴と言語的文脈との深い相互作用を促進し,視覚的特徴と言語的文脈との深い相互作用を促進するサイン・アウェア・アーリー・フュージョン・メカニズム,2)異なるモダリティから異なるレベルの特徴のマッチングを共同で最大化し,詳細な詳細と高レベルのセマンティックな関係を効果的に把握する階層的アライメント学習戦略,3)コントラスト的学習,テキストマッチング,言語モデリングを組み合わせた統合事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.469519895247366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has proven effective for learning transferable features in sign language understanding (SLU) tasks. Recently, skeleton-based methods have gained increasing attention because they can robustly handle variations in subjects and backgrounds without being affected by appearance or environmental factors. Current SLU methods continue to face three key limitations: 1) weak semantic grounding, as models often capture low-level motion patterns from skeletal data but struggle to relate them to linguistic meaning; 2) imbalance between local details and global context, with models either focusing too narrowly on fine-grained cues or overlooking them for broader context; and 3) inefficient cross-modal learning, as constructing semantically aligned representations across modalities remains difficult. To address these, we propose Sigma, a unified skeleton-based SLU framework featuring: 1) a sign-aware early fusion mechanism that facilitates deep interaction between visual and textual modalities, enriching visual features with linguistic context; 2) a hierarchical alignment learning strategy that jointly maximises agreements across different levels of paired features from different modalities, effectively capturing both fine-grained details and high-level semantic relationships; and 3) a unified pre-training framework that combines contrastive learning, text matching and language modelling to promote semantic consistency and generalisation. Sigma achieves new state-of-the-art results on isolated sign language recognition, continuous sign language recognition, and gloss-free sign language translation on multiple benchmarks spanning different sign and spoken languages, demonstrating the impact of semantically informative pre-training and the effectiveness of skeletal data as a stand-alone solution for SLU.
- Abstract(参考訳): 事前学習は手話理解(SLU)タスクにおける伝達可能な特徴の学習に有効であることが証明されている。
近年, 外観や環境要因の影響を受けずに, 被験者や背景の変動を頑健に扱えるため, 骨格法が注目されている。
現在のSLUメソッドは、以下の3つの重要な制限に直面している。
1) モデルが骨格データから低レベルの動作パターンをキャプチャすることが多いが、それらと言語的意味を関連付けるのに苦労するため、セマンティックグラウンドが弱いこと。
2) 局所的な詳細とグローバルな文脈のバランスを崩さず、モデルは細粒度に焦点を絞りすぎるか、より広い文脈でそれらを見渡すかのいずれかである。
3)非効率なクロスモーダル学習は,モダリティ間の意味的に整合した表現の構築が困難なままである。
これらの問題に対処するため、Sigmaという骨格をベースとした統一SLUフレームワークを提案する。
1) 視覚的特徴を言語的文脈で豊かにする,視覚的モダリティとテキスト的モダリティの深い相互作用を促進するサイン付き早期融合機構
2 階層的アライメント学習戦略は、異なるモダリティから異なるレベルのペア特徴の合意を共同で最大化し、きめ細かな詳細と高レベルの意味的関係の両方を効果的に捉える。
3) コントラスト学習,テキストマッチング,言語モデリングを組み合わせ,セマンティック一貫性と一般化を促進する統合事前学習フレームワーク。
シグマは、異なる手話と音声言語にまたがる複数のベンチマーク上で、孤立手話認識、連続手話認識、および光沢のない手話翻訳に関する新しい最先端の成果を達成し、意味的に情報的事前学習の影響と、SLUのスタンドアロンソリューションとしての骨格データの有効性を実証する。
関連論文リスト
- HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。