論文の概要: SAGE: Segment-Aware Gloss-Free Encoding for Token-Efficient Sign Language Translation
- arxiv url: http://arxiv.org/abs/2507.09266v1
- Date: Sat, 12 Jul 2025 12:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.865088
- Title: SAGE: Segment-Aware Gloss-Free Encoding for Token-Efficient Sign Language Translation
- Title(参考訳): SAGE: トークン効率の良い手話翻訳のためのセグメント対応グロスフリーエンコーディング
- Authors: JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 本稿では,連続映像を個別のサインインされた視覚トークンに変換するためのセグメント認識型視覚トークン化フレームワークを提案する。
これにより、以前の方法と比較して入力シーケンスの長さが最大50%減少し、メモリ使用量が最大2.67倍になる。
提案手法はPHOENIX14Tベンチマークにおける最先端手法の性能を上回っている。
- 参考スコア(独自算出の注目度): 29.79050316749927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gloss-free Sign Language Translation (SLT) has advanced rapidly, achieving strong performances without relying on gloss annotations. However, these gains have often come with increased model complexity and high computational demands, raising concerns about scalability, especially as large-scale sign language datasets become more common. We propose a segment-aware visual tokenization framework that leverages sign segmentation to convert continuous video into discrete, sign-informed visual tokens. This reduces input sequence length by up to 50% compared to prior methods, resulting in up to 2.67x lower memory usage and better scalability on larger datasets. To bridge the visual and linguistic modalities, we introduce a token-to-token contrastive alignment objective, along with a dual-level supervision that aligns both language embeddings and intermediate hidden states. This improves fine-grained cross-modal alignment without relying on gloss-level supervision. Our approach notably exceeds the performance of state-of-the-art methods on the PHOENIX14T benchmark, while significantly reducing sequence length. Further experiments also demonstrate our improved performance over prior work under comparable sequence-lengths, validating the potential of our tokenization and alignment strategies.
- Abstract(参考訳): グロスフリー手話翻訳(SLT)は急速に進歩し、グロスアノテーションに頼ることなく強力なパフォーマンスを実現している。
しかしながら、これらの利益はモデル複雑さの増加と高い計算要求によってもたらされ、特に大規模手話データセットがより一般的になるにつれて、スケーラビリティに対する懸念が高まっている。
本稿では,連続した映像を個別のサインインフォームド・ビジュアルトークンに変換するために,サインセグメンテーションを利用するセグメンテーション対応ビジュアルトークン化フレームワークを提案する。
これにより、以前の方法と比較して入力シーケンスの長さが最大50%削減され、メモリ使用量が最大2.67倍減少し、より大きなデータセットのスケーラビリティが向上する。
視覚的・言語的モダリティを橋渡しするために,トークンからトークンへのコントラスト的アライメントと,言語埋め込みと中間隠蔽状態の両方を整列する2段階の監督を導入する。
これにより、光度レベルの監督に頼ることなく、粒度の細かいクロスモーダルアライメントが向上する。
提案手法は,PHOENIX14Tベンチマークにおける最先端手法の性能を著しく上回り,シーケンス長を著しく削減する。
さらなる実験では、同等のシーケンス長の前の作業よりも改善されたパフォーマンスを実証し、トークン化とアライメント戦略の可能性を検証する。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
提案手法は,複数の段階において重要なトークン選択と軽量なコンテキストマージを行い,攻撃的トークン予算の下でもきめ細かい視覚情報を保持できる。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。