論文の概要: Generative AI for Video Translation: A Scalable Architecture for Multilingual Video Conferencing
- arxiv url: http://arxiv.org/abs/2512.13904v1
- Date: Mon, 15 Dec 2025 21:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.498846
- Title: Generative AI for Video Translation: A Scalable Architecture for Multilingual Video Conferencing
- Title(参考訳): ビデオ翻訳のためのジェネレーティブAI:多言語ビデオ会議のためのスケーラブルなアーキテクチャ
- Authors: Amirkia Rafiei Oskooei, Eren Caglar, Ibrahim Sahin, Ayse Kayabay, Mehmet S. Aktas,
- Abstract要約: ビデオ翻訳のようなアプリケーションのためのカスケード生成AIパイプラインのリアルタイム展開は、重要なシステムレベルの課題によって制限される。
本稿では、これらの重要なボトルネックを軽減するために設計された実用的なシステムレベルのフレームワークを提案し、評価する。
提案アーキテクチャでは,マルチユーザシナリオにおける計算複雑性を2次から線形に削減するターンテイク機構が組み込まれている。
- 参考スコア(独自算出の注目度): 0.21748200848556343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-time deployment of cascaded generative AI pipelines for applications like video translation is constrained by significant system-level challenges. These include the cumulative latency of sequential model inference and the quadratic ($\mathcal{O}(N^2)$) computational complexity that renders multi-user video conferencing applications unscalable. This paper proposes and evaluates a practical system-level framework designed to mitigate these critical bottlenecks. The proposed architecture incorporates a turn-taking mechanism to reduce computational complexity from quadratic to linear in multi-user scenarios, and a segmented processing protocol to manage inference latency for a perceptually real-time experience. We implement a proof-of-concept pipeline and conduct a rigorous performance analysis across a multi-tiered hardware setup, including commodity (NVIDIA RTX 4060), cloud (NVIDIA T4), and enterprise (NVIDIA A100) GPUs. Our objective evaluation demonstrates that the system achieves real-time throughput ($τ< 1.0$) on modern hardware. A subjective user study further validates the approach, showing that a predictable, initial processing delay is highly acceptable to users in exchange for a smooth, uninterrupted playback experience. The work presents a validated, end-to-end system design that offers a practical roadmap for deploying scalable, real-time generative AI applications in multilingual communication platforms.
- Abstract(参考訳): ビデオ翻訳のようなアプリケーションへのカスケード生成AIパイプラインのリアルタイム展開は、システムレベルの大きな課題によって制約される。
これには、逐次モデル推論の累積レイテンシと、マルチユーザビデオ会議アプリケーションをスケール不能にする2次($\mathcal{O}(N^2)$)計算複雑性が含まれる。
本稿では、これらの重要なボトルネックを軽減するために設計された実用的なシステムレベルのフレームワークを提案し、評価する。
提案アーキテクチャは,2次から線形への計算複雑性を低減するためのターンテイク機構と,知覚的リアルタイム体験のための推論遅延を管理するセグメント処理プロトコルを備えている。
概念実証パイプラインを実装し、コモディティ(NVIDIA RTX 4060)、クラウド(NVIDIA T4)、エンタープライズ(NVIDIA A100)GPUを含む多層ハードウェア構成に対して厳密なパフォーマンス分析を行う。
本研究の目的は,現代のハードウェア上でリアルタイムスループット(τ<1.0$)を実現することである。
主観的ユーザスタディでは、スムーズで中断のない再生体験と引き換えに、予測可能な初期処理遅延がユーザにとって極めて許容可能であることを示し、アプローチをさらに検証している。
この作業では、多言語通信プラットフォームにスケーラブルでリアルタイムな生成AIアプリケーションをデプロイするための実用的なロードマップを提供する、検証済みのエンドツーエンドのシステム設計を提示している。
関連論文リスト
- Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。