論文の概要: Asynchronous Pipeline Parallelism for Real-Time Multilingual Lip Synchronization in Video Communication Systems
- arxiv url: http://arxiv.org/abs/2512.18318v1
- Date: Sat, 20 Dec 2025 11:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.28916
- Title: Asynchronous Pipeline Parallelism for Real-Time Multilingual Lip Synchronization in Video Communication Systems
- Title(参考訳): ビデオ通信システムにおけるリアルタイム多言語リップ同期のための非同期パイプライン並列処理
- Authors: Eren Caglar, Amirkia Rafiei Oskooei, Mehmet Kutanoglu, Mustafa Keles, Mehmet S. Aktas,
- Abstract要約: 提案アーキテクチャは,パイプライン並列設計に翻訳,音声処理,リップ同期モジュールを統合する。
シーケンシャルアプローチと比較して、エンドツーエンドのレイテンシを最大3.1倍削減する。
この研究は、次世代AIoTシステムのための低レイテンシ、リソース効率のマルチモーダル通信フレームワークの開発を前進させる。
- 参考スコア(独自算出の注目度): 0.21748200848556343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a parallel and asynchronous Transformer framework designed for efficient and accurate multilingual lip synchronization in real-time video conferencing systems. The proposed architecture integrates translation, speech processing, and lip-synchronization modules within a pipeline-parallel design that enables concurrent module execution through message-queue-based decoupling, reducing end-to-end latency by up to 3.1 times compared to sequential approaches. To enhance computational efficiency and throughput, the inference workflow of each module is optimized through low-level graph compilation, mixed-precision quantization, and hardware-accelerated kernel fusion. These optimizations provide substantial gains in efficiency while preserving model accuracy and visual quality. In addition, a context-adaptive silence-detection component segments the input speech stream at semantically coherent boundaries, improving translation consistency and temporal alignment across languages. Experimental results demonstrate that the proposed parallel architecture outperforms conventional sequential pipelines in processing speed, synchronization stability, and resource utilization. The modular, message-oriented design makes this work applicable to resource-constrained IoT communication scenarios including telemedicine, multilingual kiosks, and remote assistance systems. Overall, this work advances the development of low-latency, resource-efficient multimodal communication frameworks for next-generation AIoT systems.
- Abstract(参考訳): 本稿では,リアルタイムビデオ会議システムにおいて,効率よく高精度な多言語リップ同期を実現するための並列非同期トランスフォーマフレームワークを提案する。
提案アーキテクチャはパイプライン並列設計に翻訳,音声処理,リップ同期モジュールを統合し,メッセージキューベースのデカップリングによる並列モジュール実行を実現し,逐次アプローチと比較してエンドツーエンドのレイテンシを最大3.1倍削減する。
計算効率とスループットを向上させるため、各モジュールの推論ワークフローは低レベルのグラフコンパイル、混合精度量子化、ハードウェアアクセラレーションされたカーネル融合によって最適化される。
これらの最適化は、モデルの精度と視覚的品質を保ちながら、効率を大幅に向上させる。
さらに、文脈適応型サイレント検出成分は、入力音声ストリームを意味的コヒーレントな境界でセグメント化し、翻訳一貫性と言語間の時間的整合性を改善する。
提案した並列アーキテクチャは, 処理速度, 同期安定性, 資源利用率において, 従来の逐次パイプラインよりも優れていることを示す。
モジュール型のメッセージ指向設計により、遠隔医療、多言語キオスク、リモートアシストシステムなど、リソース制約のあるIoT通信シナリオに適用することができる。
全体として、次世代AIoTシステムのための低レイテンシ、リソース効率のマルチモーダル通信フレームワークの開発が進められている。
関連論文リスト
- Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems [32.41110835446445]
Streaming Speech-to-Text Translation (StreamST) は、受信した音声と同時翻訳を必要とする。
SimulEvalリポジトリはもはやメンテナンスされておらず、出力を更新するシステムをサポートしていない。
我々は,StreamSTシステムの統一評価と実証を目的とした,最初のオープンソースフレームワークであるsimulstreamを紹介した。
論文 参考訳(メタデータ) (2025-12-19T14:48:59Z) - Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty [37.15356899831919]
接続されたサイバー物理システムは、複数のデータストリームからのリアルタイム入力に基づいて推論を行う。
本稿では,適応時間窓を用いたニューラルインスパイアされたノンブロッキング推論パラダイムを提案する。
我々のフレームワークは、精度-遅延トレードオフをきめ細かな制御で堅牢なリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2025-11-20T10:48:54Z) - AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training [4.643969942380424]
単純さとメモリ効率を維持しつつ,優れた性能を実現するために,ZeROの新しい非同期版を提案する。
非効率な通信につながるような細粒度のシャーディングを使用する従来のZeROとは異なり、AsyncHZPはパラメータ、勾配、および異なるレプリカグループ間の状態を適応的に再シャーディングする。
AsyncHZPは古典的なND並列性より一貫して優れており、複雑な戦略的チューニングなしに最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-23T01:29:35Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - A Novel Collaborative Framework for Efficient Synchronization in Split Federated Learning over Wireless Networks [4.462403784684656]
我々は、デバイス間コラボレーションを通じてワークロードの再配布を再定義する、CSFL(Collaborative Split Federated Learning)と呼ばれる新しいフレームワークを提案する。
CSFLは、独自の前方伝播を完了した後に、未完成のボトルネックデバイスの層をシームレスに引き継ぐ効率的なデバイスを可能にする。
このコラボレーティブなプロセスは、D2D通信によってサポートされ、ネットワーク全体の同期進行を維持しながら、ボトルネックデバイスを早期にオフロードすることができる。
論文 参考訳(メタデータ) (2025-03-18T22:11:54Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Shiftable Context: Addressing Training-Inference Context Mismatch in
Simultaneous Speech Translation [0.17188280334580192]
セグメントベース処理を用いたトランスフォーマーモデルは、同時音声翻訳に有効なアーキテクチャである。
トレーニングと推論を通じて一貫したセグメントとコンテキストサイズを確実に維持するために、シフト可能なコンテキストを提案する。
論文 参考訳(メタデータ) (2023-07-03T22:11:51Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。