論文の概要: Uni-Sign: Toward Unified Sign Language Understanding at Scale
- arxiv url: http://arxiv.org/abs/2501.15187v3
- Date: Thu, 13 Mar 2025 12:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:37.488523
- Title: Uni-Sign: Toward Unified Sign Language Understanding at Scale
- Title(参考訳): Uni-Sign: 大規模で統一された手話理解を目指して
- Authors: Zecheng Li, Wengang Zhou, Weichao Zhao, Kepeng Wu, Hezhen Hu, Houqiang Li,
- Abstract要約: 本稿では,事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークを提案する。
Uni-Signは、複数の下流SLUタスクにまたがる最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 90.76641997060513
- License:
- Abstract: Sign language pre-training has gained increasing attention for its ability to enhance performance across various sign language understanding (SLU) tasks. However, existing methods often suffer from a gap between pre-training and fine-tuning, leading to suboptimal results. To address this, we propose Uni-Sign, a unified pre-training framework that eliminates the gap between pre-training and downstream SLU tasks through a large-scale generative pre-training strategy and a novel fine-tuning paradigm. First, we introduce CSL-News, a large-scale Chinese Sign Language (CSL) dataset containing 1,985 hours of video paired with textual annotations, which enables effective large-scale pre-training. Second, Uni-Sign unifies SLU tasks by treating downstream tasks as a single sign language translation (SLT) task during fine-tuning, ensuring seamless knowledge transfer between pre-training and fine-tuning. Furthermore, we incorporate a prior-guided fusion (PGF) module and a score-aware sampling strategy to efficiently fuse pose and RGB information, addressing keypoint inaccuracies and improving computational efficiency. Extensive experiments across multiple SLU benchmarks demonstrate that Uni-Sign achieves state-of-the-art performance across multiple downstream SLU tasks. Dataset and code are available at github.com/ZechengLi19/Uni-Sign.
- Abstract(参考訳): サイン言語事前学習は、様々な手話理解(SLU)タスクのパフォーマンスを高める能力に注目が集まっている。
しかし、既存の手法はしばしば事前学習と微調整のギャップに悩まされ、最適以下の結果をもたらす。
そこで本研究では,SLUタスクの事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークUni-Signを提案する。
まず,大規模手話(CSL)データセットであるCSL-Newsを紹介する。
第二に、Uni-Signは、ダウンストリームタスクを微調整中にシングルサイン言語変換(SLT)タスクとして扱い、事前学習と微調整の間のシームレスな知識伝達を保証することで、SLUタスクを統一する。
さらに、PGFモジュールとスコア対応サンプリング戦略を組み込んで、ポーズやRGB情報を効率的に融合させ、キーポイントの不正確性に対処し、計算効率を向上させる。
複数のSLUベンチマークでの大規模な実験により、Uni-Signは複数の下流SLUタスクで最先端のパフォーマンスを達成することが示された。
データセットとコードはgithub.com/ZechengLi19/Uni-Signで入手できる。
関連論文リスト
- Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - CIF-PT: Bridging Speech and Text Representations for Spoken Language
Understanding via Continuous Integrate-and-Fire Pre-Training [16.361505093510665]
我々はCIF-PT(Continuous Integrate-and-Fire Pre-Training)と呼ばれる新しい事前学習パラダイムを提案する。
音声とテキストの表現をブリッジするために、CIF(Continuous Integration-and-fire)という、シンプルだが効果的なフレーム・ツー・トーケンアライメントに依存している。
CIF-PTは、意図分類とスロットフィリングのタスクにおいて、最先端モデルの精度を1.94%、SLU-F1の2.71%で上回る。
論文 参考訳(メタデータ) (2023-05-27T15:39:13Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - FUSSL: Fuzzy Uncertain Self Supervised Learning [8.31483061185317]
自己教師付き学習(SSL)は、アノテーションを使わずにラベルなしデータのパワーを活用するための、非常に成功した技術になっています。
本稿では,単一スーパーバイザ信号の使用によるSSLの基本的限界を初めて認識する。
SSLベースラインに対して,堅牢で汎用的な階層型学習/学習プロトコルを提案する。
論文 参考訳(メタデータ) (2022-10-28T01:06:10Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。