論文の概要: Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding
- arxiv url: http://arxiv.org/abs/2508.20476v1
- Date: Thu, 28 Aug 2025 06:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.141506
- Title: Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding
- Title(参考訳): 包括的コミュニケーションに向けて:手話・唇運動・音声理解のための統一LLMベースのフレームワーク
- Authors: Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro,
- Abstract要約: 音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
- 参考スコア(独自算出の注目度): 52.859261069569165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio is the primary modality for human communication and has driven the success of Automatic Speech Recognition (ASR) technologies. However, such systems remain inherently inaccessible to individuals who are deaf or hard of hearing. Visual alternatives such as sign language and lip reading offer effective substitutes, and recent advances in Sign Language Translation (SLT) and Visual Speech Recognition (VSR) have improved audio-less communication. Yet, these modalities have largely been studied in isolation, and their integration within a unified framework remains underexplored. In this paper, we introduce the first unified framework capable of handling diverse combinations of sign language, lip movements, and audio for spoken-language text generation. We focus on three main objectives: (i) designing a unified, modality-agnostic architecture capable of effectively processing heterogeneous inputs; (ii) exploring the underexamined synergy among modalities, particularly the role of lip movements as non-manual cues in sign language comprehension; and (iii) achieving performance on par with or superior to state-of-the-art models specialized for individual tasks. Building on this framework, we achieve performance on par with or better than task-specific state-of-the-art models across SLT, VSR, ASR, and AVSR. Furthermore, our analysis reveals that explicitly modeling lip movements as a separate modality significantly improves SLT performance.
- Abstract(参考訳): 音声は人間のコミュニケーションの主要なモダリティであり、自動音声認識(ASR)技術の成功を推進してきた。
しかし、これらのシステムは、聴覚障害または難聴者に対して本質的にアクセスできないままである。
手話や唇読みなどの視覚的な代替手段は効果的な代用を提供しており、手話翻訳(SLT)や視覚音声認識(VSR)の最近の進歩により、音声のないコミュニケーションが改善されている。
しかし、これらのモダリティは独立して研究され、統一されたフレームワークにおけるそれらの統合は未解明のままである。
本稿では,音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
主な目的は3つです。
一 不均質な入力を効果的に処理できる統一的モダリティに依存しないアーキテクチャを設計すること。
二 モダリティ間の相乗効果の過小評価、特に手話理解における非手話的手がかりとしての唇運動の役割
三 個々の業務に特有な最先端のモデルに匹敵する性能を達成すること。
本研究では,SLT,VSR,ASR,AVSRを対象とするタスク固有の最先端モデルと同等以上の性能を実現する。
さらに, 唇の動きを個別にモデル化することで, SLT性能が著しく向上することが示唆された。
関連論文リスト
- Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition [34.08564665311891]
指向性SpeechLlamaは、指向性音声認識を実現するために、スマートグラスのマイクロホンアレイを活用する新しいアプローチである。
実験結果から,提案した指向性SpeechLlamaはテキストキューと空間音声の関係を効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2025-06-17T20:49:41Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Linguistic Knowledge Transfer Learning for Speech Enhancement [29.191204225828354]
言語知識は、言語理解において重要な役割を果たす。
ほとんどの音声強調法は、雑音とクリーンな音声のマッピング関係を学習するために音響的特徴に依存している。
本稿では,言語知識をSEモデルに統合するクロスモーダル・ナレッジ・トランスファー(CMKT)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T09:00:18Z) - Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.136070412464214]
音声強調(SE)は、雑音の多い環境下での音声の品質と可聴性を改善することを目的としている。
近年の研究では、音声信号処理に視覚的手がかりを取り入れることで、SE性能が向上することが示されている。
本稿では,音声,視覚,言語情報を統合した拡散モデルを利用した多モード学習フレームワークDLAV-SEを提案する。
論文 参考訳(メタデータ) (2025-01-23T04:36:29Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。