論文の概要: Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition
- arxiv url: http://arxiv.org/abs/2508.00391v1
- Date: Fri, 01 Aug 2025 07:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.775903
- Title: Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition
- Title(参考訳): Cued-Agent: 自動キュード音声認識のための協調型マルチエージェントシステム
- Authors: Guanjie Huang, Danny H. K. Tsang, Shan Yang, Guangzhi Lei, Li Liu,
- Abstract要約: Cued Speech (CS) は、唇読取と手話による視覚コミュニケーションシステムであり、聴覚障害のある個人のためのコミュニケーションを容易にする。
自動CS認識(ACSR)は、CSハンドジェスチャと唇の動きをAI駆動方式でテキストに変換することを目的としている。
本稿では,ACSRのための協調型マルチエージェントシステムCued-Agentを提案する。
- 参考スコア(独自算出の注目度): 17.451829471077858
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cued Speech (CS) is a visual communication system that combines lip-reading with hand coding to facilitate communication for individuals with hearing impairments. Automatic CS Recognition (ACSR) aims to convert CS hand gestures and lip movements into text via AI-driven methods. Traditionally, the temporal asynchrony between hand and lip movements requires the design of complex modules to facilitate effective multimodal fusion. However, constrained by limited data availability, current methods demonstrate insufficient capacity for adequately training these fusion mechanisms, resulting in suboptimal performance. Recently, multi-agent systems have shown promising capabilities in handling complex tasks with limited data availability. To this end, we propose the first collaborative multi-agent system for ACSR, named Cued-Agent. It integrates four specialized sub-agents: a Multimodal Large Language Model-based Hand Recognition agent that employs keyframe screening and CS expert prompt strategies to decode hand movements, a pretrained Transformer-based Lip Recognition agent that extracts lip features from the input video, a Hand Prompt Decoding agent that dynamically integrates hand prompts with lip features during inference in a training-free manner, and a Self-Correction Phoneme-to-Word agent that enables post-process and end-to-end conversion from phoneme sequences to natural language sentences for the first time through semantic refinement. To support this study, we expand the existing Mandarin CS dataset by collecting data from eight hearing-impaired cuers, establishing a mixed dataset of fourteen subjects. Extensive experiments demonstrate that our Cued-Agent performs superbly in both normal and hearing-impaired scenarios compared with state-of-the-art methods. The implementation is available at https://github.com/DennisHgj/Cued-Agent.
- Abstract(参考訳): Cued Speech (CS) は、唇読みと手書きのコーディングを組み合わせた視覚コミュニケーションシステムであり、聴覚障害のある個人のためのコミュニケーションを容易にする。
自動CS認識(ACSR)は、CSハンドジェスチャと唇の動きをAI駆動方式でテキストに変換することを目的としている。
伝統的に、手と唇の動きの時間的同期は、効果的なマルチモーダル融合を促進するために複雑なモジュールの設計を必要とする。
しかし、データ可用性の制限により、現在の手法では、これらの融合機構を適切に訓練する能力が不十分であることが示され、その結果、準最適性能がもたらされる。
近年、マルチエージェントシステムは、データ可用性に制限のある複雑なタスクを処理できる有望な能力を示している。
この目的のために、我々はCued-Agentという名前のACSRのための初の協調型マルチエージェントシステムを提案する。
キーフレームスクリーニングとCS専門家による手の動きをデコードする戦略を駆使したマルチモーダル大型言語モデルベースの手認識エージェント、入力ビデオから唇の特徴を抽出する事前訓練されたトランスフォーマーベースの唇認識エージェント、トレーニング不要な方法で推論中に唇特徴を動的に統合するハンドプロンプトデコードエージェント、音素列から自然言語文への後処理とエンドツーエンド変換を可能にするSelf-Correction Phoneme-to-Wordエージェントの4つの特殊なサブエージェントを統合している。
本研究を支援するため,既存のマンダリンCSデータセットを拡張し,聴覚障害者8名のデータを収集し,14名の被験者の混合データセットを構築した。
広汎な実験により、我々のCued-Agentは、最先端の手法と比較して、正常および難聴の両方のシナリオで非常に機能することが示された。
実装はhttps://github.com/DennisHgj/Cued-Agent.comで公開されている。
関連論文リスト
- AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [70.60422261117816]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - Chain-of-Thought Training for Open E2E Spoken Dialogue Systems [57.77235760292348]
エンド・ツー・エンド(E2E)音声対話システムは完全な識別性を保ち、非音声情報をキャプチャする。
我々は,多モーダル言語モデルと密接に一致した会話データによる学習を確実にするためのチェーン・オブ・シント(CoT)の定式化を提案する。
提案手法はベースラインよりも1.5ROUGE-1の改善を実現し,一般公開された人間と人間の会話データセット上で音声対話システムの訓練に成功している。
論文 参考訳(メタデータ) (2025-05-31T21:43:37Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with
Decentralized Natural Language Understanding Models [6.470108226184637]
マルチエージェントシステムは、ユーザ意図の自然言語理解を複雑にする。
本稿では,ユーザからの多目的発話を効率的に解析・オーケストレーションするパイプラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:39:23Z) - Cross-Modal Mutual Learning for Cued Speech Recognition [10.225972737967249]
マルチモーダルインタラクションを促進するためのトランスフォーマーに基づく相互学習フレームワークを提案する。
我々のモデルは、モダリティ固有の異なるモダリティの情報に、モダリティ不変のコードブックを通らせるよう強制する。
中国語のための大規模多話者CSデータセットを新たに構築する。
論文 参考訳(メタデータ) (2022-12-02T10:45:33Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。