論文の概要: VineetVC: Adaptive Video Conferencing Under Severe Bandwidth Constraints Using Audio-Driven Talking-Head Reconstruction
- arxiv url: http://arxiv.org/abs/2602.12758v1
- Date: Fri, 13 Feb 2026 09:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.909892
- Title: VineetVC: Adaptive Video Conferencing Under Severe Bandwidth Constraints Using Audio-Driven Talking-Head Reconstruction
- Title(参考訳): VineetVC: 音声駆動型トーキング・ヘッド・コンストラクションによる帯域制限下での適応型ビデオ会議
- Authors: Vineet Kumar Rakesh, Soumya Mazumdar, Tapas Samanta, Hemendra Kumar Pandey, Amitabha Das, Sarbajit Pal,
- Abstract要約: コンシューマおよび制約付きネットワークにおけるインセンス帯域幅の減少は、リアルタイムビデオ会議の安定性を損なう可能性がある。
本研究は,メディア配信を補足型音声駆動音声頭部再構成経路に統合する適応型会議システムについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intense bandwidth depletion within consumer and constrained networks has the potential to undermine the stability of real-time video conferencing: encoder rate management becomes saturated, packet loss escalates, frame rates deteriorate, and end-to-end latency significantly increases. This work delineates an adaptive conferencing system that integrates WebRTC media delivery with a supplementary audio-driven talking-head reconstruction pathway and telemetry-driven mode regulation. The system consists of a WebSocket signaling service, an optional SFU for multi-party transmission, a browser client capable of real-time WebRTC statistics extraction and CSV telemetry export, and an AI REST service that processes a reference face image and recorded audio to produce a synthesized MP4; the browser can substitute its outbound camera track with the synthesized stream with a median bandwidth of 32.80 kbps. The solution incorporates a bandwidth-mode switching strategy and a client-side mode-state logger.
- Abstract(参考訳): エンコーダレート管理が飽和し、パケットロスがエスカレートし、フレームレートが劣化し、エンドツーエンドのレイテンシが大幅に増加する。
本研究は、WebRTCメディア配信と補足的な音声駆動のトーキングヘッド再構築経路とテレメトリ駆動のモード制御を統合した適応型会議システムについて述べる。
WebSocket信号サービスと、マルチパーティ送信用のオプションSFUと、リアルタイムWebRTC統計抽出およびCSVテレメトリエクスポートが可能なブラウザクライアントと、参照顔画像と記録オーディオを処理して合成MP4を生成するAI RESTサービスとから構成され、ブラウザは、そのアウトバウンドカメラトラックを合成ストリームに32.80kbpsの中央帯域で置換することができる。
このソリューションには、帯域幅モード切替戦略とクライアント側モード状態ロガーが組み込まれている。
関連論文リスト
- Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2026-02-11T19:17:10Z) - qAttCNN - Self Attention Mechanism for Video QoE Prediction in Encrypted Traffic [2.4851388650413866]
ビデオ会議アプリケーション(VCA)やWhatsAppやTelegramのようなインスタントメッセージングアプリケーション(IMA)は、ビデオ会議をコア機能としてサポートしている。
最新のVCAやIMAで一般的に使用されるエンドツーエンド暗号化は、ISPが元のメディアストリームにアクセスするのを防ぐ。
我々はQoE Attention Convolutional Neural Network (qAttCNN)を提案し、2つの非参照QoEメトリクスviz. BRISQUEとフレーム/秒(FPS)を推定する。
WhatsAppのビデオ通話から収集したカスタムデータセットを用いてqAttCNNを評価し,既存のQoEモデルと比較した。
論文 参考訳(メタデータ) (2026-01-11T11:08:40Z) - Context Video Semantic Transmission with Variable Length and Rate Coding over MIMO Channels [49.624608869195065]
無線ビデオ伝送のためのコンテキストビデオセマンティックトランスミッション(CVST)フレームワークを提案する。
我々は、特徴群と多重入力多重出力(MIMO)サブチャネルの関係を明確に定式化するために、コンテキストチャネル相関マップを学習する。
近年の無線ビデオ・セマンティック・コミュニケーション・アプローチにおいて,標準化された分離符号化方式に対して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-12-23T10:48:43Z) - Large Speech Model Enabled Semantic Communication [58.027223937172955]
大規模音声モデルにより意味コミュニケーション(LargeSC)が可能となった。
我々は、大きなモデルに埋め込まれた豊富な意味的知識を活用し、損失のあるチャネル上で適応的な伝達を可能にする。
システムは、550bpsから2.06kbpsまでの帯域幅をサポートし、パケット損失率の高い音声品質において、従来のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-04T11:58:08Z) - Semantic-Aware Adaptive Video Streaming Using Latent Diffusion Models for Wireless Networks [12.180483357502293]
本稿では,遅延拡散モデル(LDM)をFF手法に組み込んだリアルタイム適応ビットレートビデオストリーミングのための新しいフレームワークを提案する。
提案手法はLDMを利用してIフレームを潜在空間に圧縮し,ストレージとセマンティックトランスミッションの大幅な節約を実現する。
この作業は、5Gおよび将来の5Gネットワークにおけるスケーラブルなリアルタイムビデオストリーミングの新たな可能性を開く。
論文 参考訳(メタデータ) (2025-02-08T21:14:28Z) - VideoQA-SC: Adaptive Semantic Communication for Video Question Answering [21.0279034601774]
本稿では,ビデオ質問応答タスクのためのエンドツーエンドSCシステムであるVideoQA-SCを提案する。
我々のゴールは、ノイズや失速する無線チャンネル上のビデオセマンティクスに基づいて、ビデオQAタスクを直接実行することである。
この結果から,ビデオアプリケーションにおけるSCシステム設計の可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-17T06:11:10Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - A Deep Learning Approach for Low-Latency Packet Loss Concealment of
Audio Signals in Networked Music Performance Applications [66.56753488329096]
Networked Music Performance (NMP)は、インターネットアプリケーションにおける潜在的なゲームチェンジャーとして想定されている。
本稿では,ディープ・ラーニング・アプローチを用いて,パケットの損失をリアルタイムで予測する手法について述べる。
論文 参考訳(メタデータ) (2020-07-14T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。