論文の概要: Towards Compact Sign Language Translation: Frame Rate and Model Size Trade-offs
- arxiv url: http://arxiv.org/abs/2605.09554v1
- Date: Sun, 10 May 2026 14:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.309646
- Title: Towards Compact Sign Language Translation: Frame Rate and Model Size Trade-offs
- Title(参考訳): コンパクト手話翻訳に向けて:フレームレートとモデルサイズトレードオフ
- Authors: Kuanwei Chen, Mengfeng Tsai,
- Abstract要約: 手話翻訳(SLT)は、手話動画を音声テキストに変換し、聴覚と聴覚のコミュニティ間のコミュニケーションをブリッジする。
現在の光沢のないアプローチは、大規模なエンコーダデコーダモデルに依存し、デプロイメントを制限している。
本稿では,MMPose skeletal pose extract と1つの線形射影をT5小形に結合したコンパクトな77Mパラメータパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language Translation (SLT) converts sign language videos into spoken-language text, bridging communication between Deaf and hearing communities. Current gloss-free approaches rely on large encoder-decoder models, limiting deployment. We propose a compact 77M-parameter pipeline that couples MMPose skeletal pose extraction with a single linear projection into T5-small. By varying the input frame rate, we expose a practical efficiency trade-off: at 12 fps the model halves its sequence length, achieving a 75% reduction in encoder quadratic self-attention computational complexity while incurring only a modest BLEU-4 drop (9.53 vs. 10.06 at 24 fps on How2Sign). Our system is roughly 3x smaller than prior T5-base systems, demonstrating that a lightweight architecture can remain competitive without hierarchical encoders or large-scale models.
- Abstract(参考訳): 手話翻訳(SLT)は、手話動画を音声テキストに変換し、聴覚と聴覚のコミュニティ間のコミュニケーションをブリッジする。
現在の光沢のないアプローチは、大規模なエンコーダデコーダモデルに依存し、デプロイメントを制限している。
本稿では,MMPose skeletal pose extractとT5-smallへの1直線投影を結合した77Mパラメーターパイプラインを提案する。
モデルがシーケンス長を12fpsで半減し、エンコーダの2次自己注意計算の複雑性を75%低減し、わずかにBLEU-4ドロップ(How2Sign上では9.53 vs. 10.06)しか得られない。
我々のシステムは,従来のT5ベースシステムに比べて約3倍小さく,階層エンコーダや大規模モデルなしで軽量アーキテクチャが競争力を維持することを示す。
関連論文リスト
- SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文 参考訳(メタデータ) (2026-03-11T06:02:36Z) - Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems [2.9034429823924865]
本稿では,MLC-SLM Challenge 2025のための大規模言語モデル(LLM)を用いた多言語音声認識と言語モデリングに焦点を当てた。
本システムでは,Qwen2.5-7Bをデコーダのみの言語モデルとして,Gemma3-12Bと18.6%を用いて,プライベートテスト平均WER/CERの16.63%の競合性能を実現している。
論文 参考訳(メタデータ) (2025-06-16T15:23:07Z) - Breaking the Encoder Barrier for Seamless Video-Language Understanding [22.749949819082484]
視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化するエンコーダフリーLLMであるELVAを提案する。
公開されているビデオテキストペアはわずか700万で、ELVAはエンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%削減し、推論遅延を92%削減した。
論文 参考訳(メタデータ) (2025-03-24T08:06:39Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。
並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。
デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文 参考訳(メタデータ) (2023-01-11T18:59:46Z) - RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech
Translation without Quality Compromise [66.92823764664206]
我々は,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。
事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
論文 参考訳(メタデータ) (2022-10-16T07:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。