論文の概要: Hierarchical Sub-action Tree for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2506.20947v1
- Date: Thu, 26 Jun 2025 02:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.945928
- Title: Hierarchical Sub-action Tree for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のための階層的サブアクションツリー
- Authors: Dejie Yang, Zhu Xu, Xinjie Gao, Yang Liu,
- Abstract要約: 連続手話認識(Continuous sign language recognition)は、未編集のビデオをグロスに書き起こすことを目的としている。
近年の研究では、訓練データ不足により、大規模なデータセットや正確なアノテーションの欠如がCSLRのボトルネックとなっていることが示されている。
本稿では,HST-CSLR(Hierarchical Sub-action Tree)を提案する。
- 参考スコア(独自算出の注目度): 4.929852718777036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous sign language recognition (CSLR) aims to transcribe untrimmed videos into glosses, which are typically textual words. Recent studies indicate that the lack of large datasets and precise annotations has become a bottleneck for CSLR due to insufficient training data. To address this, some works have developed cross-modal solutions to align visual and textual modalities. However, they typically extract textual features from glosses without fully utilizing their knowledge. In this paper, we propose the Hierarchical Sub-action Tree (HST), termed HST-CSLR, to efficiently combine gloss knowledge with visual representation learning. By incorporating gloss-specific knowledge from large language models, our approach leverages textual information more effectively. Specifically, we construct an HST for textual information representation, aligning visual and textual modalities step-by-step and benefiting from the tree structure to reduce computational complexity. Additionally, we impose a contrastive alignment enhancement to bridge the gap between the two modalities. Experiments on four datasets (PHOENIX-2014, PHOENIX-2014T, CSL-Daily, and Sign Language Gesture) demonstrate the effectiveness of our HST-CSLR.
- Abstract(参考訳): 連続手話認識 (continuous sign language recognition, CSLR) は、未編集の動画をグロスに転写することを目的としている。
近年の研究では、訓練データ不足により、大規模なデータセットや正確なアノテーションの欠如がCSLRのボトルネックとなっていることが示されている。
これを解決するために、視覚とテキストのモダリティを整合させるクロスモーダルなソリューションを開発した研究もある。
しかし、典型的には、知識を十分に活用することなく、グロスからテキストの特徴を抽出する。
本稿では,HST-CSLR(Hierarchical Sub-action Tree)を提案する。
大規模言語モデルから光沢特異的な知識を取り入れることで,テキスト情報をより効果的に活用する。
具体的には、テキスト情報表現のためのHSTを構築し、視覚的・テキスト的モダリティを段階的に調整し、木構造から恩恵を受け、計算複雑性を低減する。
さらに、両モード間のギャップを埋めるために、コントラストアライメントの強化を課す。
4つのデータセット(PHOENIX-2014、PHOENIX-2014T、CSL-Daily、Sign Language Gesture)の実験は、我々のHST-CSLRの有効性を実証している。
関連論文リスト
- Language-Image Alignment with Fixed Text Encoders [28.898689028197005]
現在、言語と画像のアライメントを確立するための最も支配的なアプローチは、テキストと画像エンコーダを共同で事前訓練することである。
本研究では,事前学習した固定大言語モデル(LLM)が,視覚表現学習の指導に十分なテキストエンコーダを提供するかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-04T17:51:56Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - Unify Graph Learning with Text: Unleashing LLM Potentials for Session Search [35.20525123189316]
セッション検索は、ユーザの複雑な情報ニーズを満たすための一連の対話的なクエリとアクションを含む。
現在の戦略は、相互作用のグラフ構造を見渡すことで、深い意味理解のためのシーケンシャルなモデリングを優先している。
テキストベースとグラフベースの両方のアプローチを活用することを目的としたSGR(Symbolic Graph Ranker)を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:05:06Z) - SE-GCL: An Event-Based Simple and Effective Graph Contrastive Learning for Text Representation [23.60337935010744]
テキスト表現のためのイベントベース,シンプル,効果的なグラフコントラスト学習(SE-GCL)を提案する。
正確には、テキストからイベントブロックを抽出し、意味的相互接続を表す内部関係グラフを構築する。
特に、コア表現セマンティクスのためのイベントスケルトンの概念を導入し、典型的には複雑なデータ拡張テクニックを単純化する。
論文 参考訳(メタデータ) (2024-12-16T10:53:24Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。