論文の概要: HI-TransPA: Hearing Impairments Translation Personal Assistant
- arxiv url: http://arxiv.org/abs/2511.09915v1
- Date: Fri, 14 Nov 2025 01:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.57312
- Title: HI-TransPA: Hearing Impairments Translation Personal Assistant
- Title(参考訳): HI-TransPA:聴覚障害者翻訳アシスタント
- Authors: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng,
- Abstract要約: 我々は,Omni-Modelパラダイムを補助技術に導入し,インストラクション駆動型音声視覚パーソナルアシスタントHI-TransPAを提案する。
このモデルは、高フレームレートのリップダイナミックスで不明瞭な音声を融合させ、単一のマルチモーダルフレームワーク内での翻訳と対話を可能にする。
HI-Dialogueデータセットを用いた実験により,HI-TransPAの精度と意味的忠実度を両立させることができた。
- 参考スコア(独自算出の注目度): 23.33416647487016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.
- Abstract(参考訳): 聴覚障害者の日常コミュニケーションのための統一的で柔軟なソリューションとして,Omni-Modelパラダイムを補助技術に導入し,インストラクション駆動型音声視覚パーソナルアシスタントHI-TransPAを提案する。
このモデルは、高フレームレートのリップダイナミックスで不明瞭な音声を融合させ、単一のマルチモーダルフレームワーク内での翻訳と対話を可能にする。
雑音や不均一な生データの難しさや既存のOmni-Modelsの難聴音声への適応性に対処するため,顔のランドマークを検出し,唇領域を分離・安定化し,マルチモーダルなサンプル品質を定量的に評価する包括的前処理・キュレーションパイプラインを構築した。
これらの品質スコアは、まずクリーンで高信頼のサンプルを訓練し、モデルの堅牢性を強化するために難しいケースを徐々に取り入れるカリキュラム学習戦略を導いてくれる。
さらに,SigLIPエンコーダとUnified 3D-Resamplerを組み合わせて高フレームレートの唇動作を効率的に符号化する。
HI-Dialogueデータセットを用いた実験により,HI-TransPAの精度と意味的忠実度を両立させることができた。
この研究は、Omni-Modelsを補助コミュニケーション技術に適用するための基盤を確立し、エンド・ツー・エンド・エンド・モデリング・フレームワークと、将来の研究に不可欠な処理ツールを提供する。
関連論文リスト
- Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。