論文の概要: MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation
- arxiv url: http://arxiv.org/abs/2509.00030v1
- Date: Wed, 20 Aug 2025 17:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.253864
- Title: MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation
- Title(参考訳): MultiStream-LLM:ロバスト手話翻訳のためのブリッジングモーダリティ
- Authors: Marshall Thomas, Edward Fish, Richard Bowden,
- Abstract要約: 自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
- 参考スコア(独自算出の注目度): 19.197388907510746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite progress in gloss-free Sign Language Translation (SLT), monolithic end-to-end models consistently fail on two critical components of natural signing: the precise recognition of high-speed fingerspelling and the integration of asynchronous non-manual cues from the face. Recent progress in Automated Sign Language Translation with Large Language Models has side stepped this challenge, forcing a single network to learn these simultaneously resulting in poor performance when tasked with translating crucial information such as names,places, and technical terms. We introduce MultiStream-LLM, a modular framework designed to overcome these limitations. Our approach employs separate, specialized predictors for continuous signing, fingerspelling, and lipreading. Each expert network first decodes its specific modality into a sequence of tokens. These parallel streams are then fused by a lightweight transformer that resolves temporal misalignments before passing the combined representation to a Large Language Model (LLM) for final sentence generation. Our method establishes a new state-of-the-art on the How2Sign benchmark with a BLEU-4 score of 23.5 and achieves 73.2% letter accuracy on the challenging ChicagoFSWildPlus fingerspelling dataset. These results validate our core hypothesis: by isolating and solving distinct recogni tion tasks before fusion, our multi-expert approach provides a more powerful and effective pathway to robust, high-fidelity sign language translation.
- Abstract(参考訳): グロスフリー手話翻訳(SLT)の進歩にもかかわらず、モノリシック・エンド・ツー・エンドのモデルは、高速フィンガースペルの正確な認識と、顔からの非同期非手動キューの統合という、自然な署名の2つの重要なコンポーネントで一貫して失敗する。
大規模言語モデルを用いた手話自動翻訳の最近の進歩は、この課題を一歩進め、単一のネットワークにこれらを同時に学習させ、名前、場所、技術用語などの重要な情報を翻訳するタスクを行うと、パフォーマンスが低下する。
これらの制限を克服するために設計されたモジュラーフレームワークであるMultiStream-LLMを紹介します。
当社のアプローチでは, 連続署名, 指打ち, リップリーディングのために, 別々に特殊な予測器を採用している。
各エキスパートネットワークは、その特定のモダリティをトークンのシーケンスにデコードする。
これらの並列ストリームは、最終文生成のために複合表現をLarge Language Model (LLM)に渡す前に、時間的誤りを解消する軽量な変換器によって融合される。
提案手法は,BLEU-4スコアが23.5のHow2Signベンチマークの最先端性を新たに確立し,難易度の高いChicagoFSWildPlusフィンガースペルデータセット上で73.2%の精度を実現する。
融合前に異なる認識タスクを分離し、解決することで、我々のマルチエキスパートアプローチは、堅牢で高忠実な手話翻訳へのより強力で効果的な経路を提供する。
関連論文リスト
- AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition [0.0]
聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。
ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。
マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
論文 参考訳(メタデータ) (2025-07-26T07:28:33Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - A Token-level Contrastive Framework for Sign Language Translation [9.185037439012952]
手話翻訳は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める有望な技術である。
トークンレベルの新しい ConSLT を提案する。
textbfSign textbfLanguage用のコントラスト学習フレームワーク。
textbf翻訳。
論文 参考訳(メタデータ) (2022-04-11T07:33:26Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。