論文の概要: HI-TransPA: Hearing Impairments Translation Personal Assistant
- arxiv url: http://arxiv.org/abs/2511.09915v2
- Date: Fri, 14 Nov 2025 18:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.178723
- Title: HI-TransPA: Hearing Impairments Translation Personal Assistant
- Title(参考訳): HI-TransPA:聴覚障害者翻訳アシスタント
- Authors: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng,
- Abstract要約: 我々は,Omni-Modelパラダイムを補助技術に導入し,インストラクション駆動型音声視覚パーソナルアシスタントHI-TransPAを提案する。
このモデルは、不明瞭な音声を唇のダイナミックスと融合させ、単一のマルチモーダル・フレームワーク内での翻訳と対話を可能にする。
HI-Dialogueデータセットを用いた実験により、HI-TransPAは精度とセマンティック忠実度の両方で最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 23.33416647487016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hearing-impaired individuals often face significant barriers in daily communication due to the inherent challenges of producing clear speech. To address this, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with lip dynamics, enabling both translation and dialogue within a single multimodal framework. To address the distinctive pronunciation patterns of hearing-impaired speech and the limited adaptability of existing models, we develop a multimodal preprocessing and curation pipeline that detects facial landmarks, stabilizes the lip region, and quantitatively evaluates sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. Architecturally, we employs a novel unified 3D-Resampler to efficiently encode the lip dynamics, which is critical for accurate interpretation. Experiments on purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. Our work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.
- Abstract(参考訳): 聴覚障害者は、明瞭な発話を生み出すという固有の課題のために、日々のコミュニケーションにおいて重大な障壁に直面していることが多い。
そこで我々は,Omni-Modelパラダイムを補助技術に導入し,インストラクション駆動型音声視覚パーソナルアシスタントHI-TransPAを提案する。
このモデルは、不明瞭な音声を唇のダイナミックスと融合させ、単一のマルチモーダル・フレームワーク内での翻訳と対話を可能にする。
聴覚障害者の独特の発音パターンと既存モデルの適応性を制限するために,顔のランドマークを検出し,唇領域を安定化し,サンプル品質を定量的に評価するマルチモーダル前処理・キュレーションパイプラインを開発した。
これらの品質スコアは、まずクリーンで高信頼のサンプルを訓練し、モデルの堅牢性を強化するために難しいケースを徐々に取り入れるカリキュラム学習戦略を導いてくれる。
アーキテクチャ上,我々はリップダイナミックスを効率的にエンコードするために,新しい3D-Resamplerを採用している。
HI-Dialogueデータセットを用いた実験により、HI-TransPAは精度とセマンティック忠実度の両方で最先端の性能を達成することが示された。
我々は,Omni-Modelsをコミュニケーション支援技術に適用するための基盤を確立し,エンド・ツー・エンド・エンド・モデリング・フレームワークと,今後の研究に不可欠な処理ツールを提供する。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文 参考訳(メタデータ) (2026-01-27T00:55:14Z) - Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。