論文の概要: CanonSLR: Canonical-View Guided Multi-View Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2604.18184v1
- Date: Mon, 20 Apr 2026 12:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.865456
- Title: CanonSLR: Canonical-View Guided Multi-View Continuous Sign Language Recognition
- Title(参考訳): CanonSLR: Canonical-View Guided Multi-View Continuous Sign Language Recognition
- Authors: Xu Wang, Shengeng Tang, Wan Jiang, Yaxiong Wang, Lechao Cheng, Richang Hong,
- Abstract要約: CanonSLRは、多視点連続言語認識のための標準ビューガイド付きフレームワークである。
本稿では,前向き視点で学習した教師ネットワークが,すべての視点で学習した学生ネットワークに対して,標準的時間的監視を提供する,前向き視点の教師学生学習戦略を紹介する。
また,従来のシングルビューRGB動画を意味的に一貫性があり,時間的に一貫性があり,視点制御可能な手話ビデオに変換する,ユニバーサルな多視点手話データ構築パイプラインも開発している。
- 参考スコア(独自算出の注目度): 63.88956818363774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Sign Language Recognition (CSLR) has achieved remarkable progress in recent years; however, most existing methods are developed under single-view settings and thus remain insufficiently robust to viewpoint variations in real-world scenarios. To address this limitation, we propose CanonSLR, a canonical-view guided framework for multi-view CSLR. Specifically, we introduce a frontal-view-anchored teacher-student learning strategy, in which a teacher network trained on frontal-view data provides canonical temporal supervision for a student network trained on all viewpoints. To further reduce cross-view semantic discrepancy, we propose Sequence-Level Soft-Target Distillation, which transfers structured temporal knowledge from the frontal view to non-frontal samples, thereby alleviating gloss boundary ambiguity and category confusion caused by occlusion and projection variation. In addition, we introduce Temporal Motion Relational Enhancement to explicitly model motion-aware temporal relations in high-level visual features, strengthening stable dynamic representations while suppressing viewpoint-sensitive appearance disturbances. To support multi-view CSLR research, we further develop a universal multi-view sign language data construction pipeline that transforms original single-view RGB videos into semantically consistent, temporally coherent, and viewpoint-controllable multi-view sign language videos. Based on this pipeline, we extend PHOENIX-2014T and CSL-Daily into two seven-view benchmarks, namely PT14-MV and CSL-MV, providing a new experimental foundation for multi-view CSLR. Extensive experiments on PT14-MV and CSL-MV demonstrate that CanonSLR consistently outperforms existing approaches under multi-view settings and exhibits stronger robustness, especially on challenging non-frontal views.
- Abstract(参考訳): CSLR(Continuous Sign Language Recognition)は近年顕著な進歩を遂げているが、既存のほとんどの手法はシングルビュー設定で開発されており、現実のシナリオにおける視点変化に対して十分に頑健である。
この制限に対処するため,多視点CSLRのための標準ビューガイドフレームワークであるCanonSLRを提案する。
具体的には、前向き視点で訓練された教師ネットワークが、すべての視点で訓練された学生ネットワークに対して、標準的時間的監視を提供する、前向き視点の教師学生学習戦略を導入する。
そこで本研究では,前頭側からの時間的知識を非前頭側サンプルに伝達するシークエンス・レベルソフトターゲット蒸留法を提案する。
さらに,高次視覚特徴における動き認識の時間的関係を明示的にモデル化し,視点に敏感な外見障害を抑えつつ,安定した動的表現を強化するための時間的動き関係強化手法を提案する。
マルチビューCSLR研究を支援するために,従来のシングルビューRGB動画を意味的に一貫した,時間的に一貫性のある,視点制御可能なマルチビュー手話ビデオに変換する,ユニバーサルなマルチビュー手話データ構築パイプラインを開発した。
このパイプラインに基づいて、PHOENIX-2014TとCSL-DailyをPT14-MVとCSL-MVという2つの7ビューベンチマークに拡張し、マルチビューCSLRの新たな実験基盤を提供する。
PT14-MV と CSL-MV の大規模な実験により、CanonSLR はマルチビュー設定で既存のアプローチを一貫して上回り、特に非フロントビューにおいて強い堅牢性を示すことを示した。
関連論文リスト
- Self-Supervised Learning with a Multi-Task Latent Space Objective [71.49269645849675]
自己教師付き学習(SSL)メソッドは、同じイメージの異なるビューを整列することで視覚表現を学ぶ。
それぞれのビュータイプに個別の予測器を割り当てると、マルチクロップトレーニングが安定し、性能が大幅に向上することを示す。
これは、グローバル、ローカル、マスクされたビューを単一のフレームワークに組み合わせた、非対称なシームズSSLの単純なマルチタスクの定式化をもたらす。
論文 参考訳(メタデータ) (2026-02-05T16:33:30Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
3D/4Dデータから顔感情の教師なしコントラクティブなマルチビュー表現学習のための視覚言語モデルであるMultiviewVLMを紹介した。
我々のアーキテクチャは、生成したテキストプロンプトから派生した擬似ラベルを統合し、感情的意味論の暗黙的なアライメントを導く。
我々は、新しいマルチビューコントラスト学習戦略により、モデルの識別可能性をさらに強化する。
論文 参考訳(メタデータ) (2025-05-14T12:31:21Z) - Exploiting Ensemble Learning for Cross-View Isolated Sign Language Recognition [14.547488459868442]
We present our solution to the Cross-View Isolated Sign Language Recognition (CV-I SLR) Challenge held at WWW 2025。
CV-I SLRは、従来の分離手話認識(I SLR)において重要な問題に対処する。
提案手法は,RGBベースI SLRとRGBベースI SLRの両トラックで3位にランクされ,クロスビュー認識の課題に対処する上での有効性が示された。
論文 参考訳(メタデータ) (2025-02-04T10:21:28Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment [42.10603331311837]
手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
視覚と言語の両方のモダリティの事前訓練された知識を十分に探求するために,SLR,-SLRのための新しいコントラッシブ・ビジュアル・トランスフォーメーションを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:12:36Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。