論文の概要: Contrastive Pretraining with Dual Visual Encoders for Gloss-Free Sign Language Translation
- arxiv url: http://arxiv.org/abs/2507.10306v1
- Date: Mon, 14 Jul 2025 14:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.073115
- Title: Contrastive Pretraining with Dual Visual Encoders for Gloss-Free Sign Language Translation
- Title(参考訳): グロスフリー手話翻訳のためのデュアルビジュアルエンコーダによるコントラスト事前学習
- Authors: Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 手話翻訳(SLT)は、手話動画を音声やテキストに変換することを目的としている。
グロースフリーSLTのための2相デュアルビジュアルエンコーダフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.48154010885497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Translation (SLT) aims to convert sign language videos into spoken or written text. While early systems relied on gloss annotations as an intermediate supervision, such annotations are costly to obtain and often fail to capture the full complexity of continuous signing. In this work, we propose a two-phase, dual visual encoder framework for gloss-free SLT, leveraging contrastive visual-language pretraining. During pretraining, our approach employs two complementary visual backbones whose outputs are jointly aligned with each other and with sentence-level text embeddings via a contrastive objective. During the downstream SLT task, we fuse the visual features and input them into an encoder-decoder model. On the Phoenix-2014T benchmark, our dual encoder architecture consistently outperforms its single stream variants and achieves the highest BLEU-4 score among existing gloss-free SLT approaches.
- Abstract(参考訳): 手話翻訳(SLT)は、手話動画を音声やテキストに変換することを目的としている。
初期のシステムはグロスアノテーションを中間的監視として頼っていたが、そのようなアノテーションは入手するのに費用がかかり、継続的な署名の複雑さを完全に捉えるのに失敗することが多い。
本研究では,2相2重視覚エンコーダフレームワークを提案する。
事前学習では,2つの相補的な視覚的バックボーンを用いて,出力が相互に一致し,コントラスト的な目的によって文レベルのテキスト埋め込みを行う。
下流SLTタスクの間、視覚的特徴を融合させ、エンコーダ・デコーダモデルに入力する。
Phoenix-2014Tベンチマークでは、我々のデュアルエンコーダアーキテクチャは、既存のGloss-free SLTアプローチの中で最も高いBLEU-4スコアを達成する。
関連論文リスト
- SAGE: Segment-Aware Gloss-Free Encoding for Token-Efficient Sign Language Translation [29.79050316749927]
本稿では,連続映像を個別のサインインされた視覚トークンに変換するためのセグメント認識型視覚トークン化フレームワークを提案する。
これにより、以前の方法と比較して入力シーケンスの長さが最大50%減少し、メモリ使用量が最大2.67倍になる。
提案手法はPHOENIX14Tベンチマークにおける最先端手法の性能を上回っている。
論文 参考訳(メタデータ) (2025-07-12T12:18:34Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions [31.624782806591682]
リッチに記述された合成キャプションをより効果的に活用するための2つのシンプルで効果的な設計を提案する。
まず,合成キャプションを用いた学習において,強い逆効果が観察される。
第二に、自己回帰キャプタを組み込んで、再カプセル化プロセスを模倣する。
論文 参考訳(メタデータ) (2024-11-25T18:49:02Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。