論文の概要: IsoSignVid2Aud: Sign Language Video to Audio Conversion without Text Intermediaries
- arxiv url: http://arxiv.org/abs/2510.07837v1
- Date: Thu, 09 Oct 2025 06:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.907912
- Title: IsoSignVid2Aud: Sign Language Video to Audio Conversion without Text Intermediaries
- Title(参考訳): IsoSignVid2Aud: テキスト仲介のない音声変換に手話ビデオを使う
- Authors: Harsh Kavediya, Vighnesh Nayak, Bheeshm Sharma, Balamurugan Palaniappan,
- Abstract要約: 音声言語への手話翻訳は、聴覚障害者と音声障害者を繋ぐ上で重要である。
我々は連続的な文法的な署名よりも、孤立した手話列を持つ手話ビデオを考える。
IsoSignVid2Audは手話ビデオの非文法的連続符号列を音声に変換する新しいエンドツーエンドフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign language to spoken language audio translation is important to connect the hearing- and speech-challenged humans with others. We consider sign language videos with isolated sign sequences rather than continuous grammatical signing. Such videos are useful in educational applications and sign prompt interfaces. Towards this, we propose IsoSignVid2Aud, a novel end-to-end framework that translates sign language videos with a sequence of possibly non-grammatic continuous signs to speech without requiring intermediate text representation, providing immediate communication benefits while avoiding the latency and cascading errors inherent in multi-stage translation systems. Our approach combines an I3D-based feature extraction module with a specialized feature transformation network and an audio generation pipeline, utilizing a novel Non-Maximal Suppression (NMS) algorithm for the temporal detection of signs in non-grammatic continuous sequences. Experimental results demonstrate competitive performance on ASL-Citizen-1500 and WLASL-100 datasets with Top-1 accuracies of 72.01\% and 78.67\%, respectively, and audio quality metrics (PESQ: 2.67, STOI: 0.73) indicating intelligible speech output. Code is available at: https://github.com/BheeshmSharma/IsoSignVid2Aud_AIMLsystems-2025.
- Abstract(参考訳): 音声言語への手話翻訳は、聴覚障害者と音声障害者を繋ぐ上で重要である。
我々は連続的な文法的な署名よりも、孤立した手話列を持つ手話ビデオを考える。
このようなビデオは教育応用やサインインプロンプトインターフェースに有用である。
そこで本研究では,中間テキスト表現を必要とせず,手話動画を非文法的な連続符号列で音声に翻訳する,新しいエンドツーエンドフレームワークIsoSignVid2Audを提案する。
提案手法は,I3Dに基づく特徴抽出モジュールと特殊特徴変換ネットワークと音声生成パイプラインを組み合わせ,非文法連続配列における符号の時間的検出のための新しい非最大抑圧(NMS)アルゴリズムを利用する。
ASL-Citizen-1500 と WLASL-100 でそれぞれ 72.01\% と 78.67\% の ASL-Citizen-1500 と WLASL-100 データセットの競合性能を示し、音声品質指標 (PESQ: 2.67, STOI: 0.73) は可知音声出力を示す。
コードはhttps://github.com/BheeshmSharma/IsoSignVid2Aud_AIMLsystems-2025で公開されている。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - A Data-Driven Representation for Sign Language Production [26.520016084139964]
手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。
現在の最先端のアプローチは、作業する言語資源の不足に依存しています。
本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:52:38Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。