Fugu-MT 論文翻訳(概要): Uni-Sign: Toward Unified Sign Language Understanding at Scale

論文の概要: Uni-Sign: Toward Unified Sign Language Understanding at Scale

arxiv url: http://arxiv.org/abs/2501.15187v3
Date: Thu, 13 Mar 2025 12:51:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 17:08:08.188396
Title: Uni-Sign: Toward Unified Sign Language Understanding at Scale
Title（参考訳）: Uni-Sign: 大規模で統一された手話理解を目指して
Authors: Zecheng Li, Wengang Zhou, Weichao Zhao, Kepeng Wu, Hezhen Hu, Houqiang Li,
Abstract要約: 本稿では,事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークを提案する。 Uni-Signは、複数の下流SLUタスクにまたがる最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 90.76641997060513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign language pre-training has gained increasing attention for its ability to enhance performance across various sign language understanding (SLU) tasks. However, existing methods often suffer from a gap between pre-training and fine-tuning, leading to suboptimal results. To address this, we propose Uni-Sign, a unified pre-training framework that eliminates the gap between pre-training and downstream SLU tasks through a large-scale generative pre-training strategy and a novel fine-tuning paradigm. First, we introduce CSL-News, a large-scale Chinese Sign Language (CSL) dataset containing 1,985 hours of video paired with textual annotations, which enables effective large-scale pre-training. Second, Uni-Sign unifies SLU tasks by treating downstream tasks as a single sign language translation (SLT) task during fine-tuning, ensuring seamless knowledge transfer between pre-training and fine-tuning. Furthermore, we incorporate a prior-guided fusion (PGF) module and a score-aware sampling strategy to efficiently fuse pose and RGB information, addressing keypoint inaccuracies and improving computational efficiency. Extensive experiments across multiple SLU benchmarks demonstrate that Uni-Sign achieves state-of-the-art performance across multiple downstream SLU tasks. Dataset and code are available at github.com/ZechengLi19/Uni-Sign.
Abstract（参考訳）: サイン言語事前学習は、様々な手話理解(SLU)タスクのパフォーマンスを高める能力に注目が集まっている。しかし、既存の手法はしばしば事前学習と微調整のギャップに悩まされ、最適以下の結果をもたらす。そこで本研究では,SLUタスクの事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークUni-Signを提案する。まず,大規模手話(CSL)データセットであるCSL-Newsを紹介する。第二に、Uni-Signは、ダウンストリームタスクを微調整中にシングルサイン言語変換(SLT)タスクとして扱い、事前学習と微調整の間のシームレスな知識伝達を保証することで、SLUタスクを統一する。さらに、PGFモジュールとスコア対応サンプリング戦略を組み込んで、ポーズやRGB情報を効率的に融合させ、キーポイントの不正確性に対処し、計算効率を向上させる。複数のSLUベンチマークでの大規模な実験により、Uni-Signは複数の下流SLUタスクで最先端のパフォーマンスを達成することが示された。データセットとコードはgithub.com/ZechengLi19/Uni-Signで入手できる。

関連論文リスト

Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる In-Context Contrastive Decoding (ICCD)を導入する。 ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文参考訳（メタデータ） (2025-02-19T14:04:46Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
CIF-PT: Bridging Speech and Text Representations for Spoken Language Understanding via Continuous Integrate-and-Fire Pre-Training [16.361505093510665]
我々はCIF-PT(Continuous Integrate-and-Fire Pre-Training)と呼ばれる新しい事前学習パラダイムを提案する。音声とテキストの表現をブリッジするために、CIF(Continuous Integration-and-fire)という、シンプルだが効果的なフレーム・ツー・トーケンアライメントに依存している。 CIF-PTは、意図分類とスロットフィリングのタスクにおいて、最先端モデルの精度を1.94%、SLU-F1の2.71%で上回る。
論文参考訳（メタデータ） (2023-05-27T15:39:13Z)
SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-08T17:16:38Z)
Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文参考訳（メタデータ） (2023-04-24T07:35:38Z)
FUSSL: Fuzzy Uncertain Self Supervised Learning [8.31483061185317]
自己教師付き学習(SSL)は、アノテーションを使わずにラベルなしデータのパワーを活用するための、非常に成功した技術になっています。本稿では,単一スーパーバイザ信号の使用によるSSLの基本的限界を初めて認識する。 SSLベースラインに対して,堅牢で汎用的な階層型学習/学習プロトコルを提案する。
論文参考訳（メタデータ） (2022-10-28T01:06:10Z)
Bridging the Gap between Language Models and Cross-Lingual Sequence Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文参考訳（メタデータ） (2022-04-11T15:55:20Z)
CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文参考訳（メタデータ） (2021-02-07T09:27:26Z)
Meta learning to classify intent and slot labels with noisy few shot examples [11.835266162072486]
音声言語理解(SLU)モデルは、データハングリーで悪名高い。 SLUは目的分類(IC)とスロットラベリング(SL)の2つのコア問題から構成される。本稿では,従来の微調整ベースラインとメタラーニング手法であるモデル非依存メタラーニング(MAML)を,ICの精度とSL F1の精度で一貫した性能で向上することを示す。
論文参考訳（メタデータ） (2020-11-30T18:53:30Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。