論文の概要: Artic: AI-oriented Real-time Communication for MLLM Video Assistant
- arxiv url: http://arxiv.org/abs/2602.12641v1
- Date: Fri, 13 Feb 2026 06:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.86237
- Title: Artic: AI-oriented Real-time Communication for MLLM Video Assistant
- Title(参考訳): Artic:MLLMビデオアシスタントのためのAI指向リアルタイムコミュニケーション
- Authors: Jiangkai Wu, Zhiyuan Ren, Junquan Zhong, Liming Liu, Xinggong Zhang,
- Abstract要約: ArticはMLLMビデオアシスタントのためのAI指向リアルタイムコミュニケーションフレームワークである。
プロトタイプ実験では、Articは精度を15.12%向上し、レイテンシを135.31ミリ秒削減した。
- 参考スコア(独自算出の注目度): 9.700784988498558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI Video Assistant emerges as a new paradigm for Real-time Communication (RTC), where one peer is a Multimodal Large Language Model (MLLM) deployed in the cloud. This makes interaction between humans and AI more intuitive, akin to chatting with a real person. However, a fundamental mismatch exists between current RTC frameworks and AI Video Assistants, stemming from the drastic shift in Quality of Experience (QoE) and more challenging networks. Measurements on our production prototype also confirm that current RTC fails, causing latency spikes and accuracy drops. To address these challenges, we propose Artic, an AI-oriented RTC framework for MLLM Video Assistants, exploring the shift from "humans watching video" to "AI understanding video." Specifically, Artic proposes: (1) Response Capability-aware Adaptive Bitrate, which utilizes MLLM accuracy saturation to proactively cap bitrate, reserving bandwidth headroom to absorb future fluctuations for latency reduction; (2) Zero-overhead Context-aware Streaming, which allocates limited bitrate to regions most important for the response, maintaining accuracy even under ultra-low bitrates; and (3) Degraded Video Understanding Benchmark, the first benchmark evaluating how RTC-induced video degradation affects MLLM accuracy. Prototype experiments using real-world uplink traces show that compared with existing methods, Artic significantly improves accuracy by 15.12% and reduces latency by 135.31 ms. We will release the benchmark and codes at https://github.com/pku-netvideo/DeViBench.
- Abstract(参考訳): AI Video Assistantはリアルタイム通信(RTC)の新しいパラダイムとして登場し、クラウドにデプロイされるMLLM(Multimodal Large Language Model)である。
これにより、人間とAIの対話はより直感的になり、実際の人との会話に似ている。
しかし、現在のRTCフレームワークとAI Video Assistantの間には根本的なミスマッチがあり、QoE(Quality of Experience)の急激なシフトと、より困難なネットワークに起因している。
プロダクションプロトタイプの測定では、現在のRTCがフェールし、レイテンシのスパイクと精度の低下が発生していることも確認しています。
これらの課題に対処するために,MLLMビデオアシスタントのためのAI指向RTCフレームワークであるArticを提案し,ビデオを見る人間"から"AI理解ビデオ"への移行を探求する。
特にArtic氏は,(1)MLLMの精度飽和を利用してビットレートを積極的にカプセル化し,帯域幅のヘッドルームを保ち,遅延低減のための将来の変動を吸収する,(2)応答にとって最も重要な領域に限られたビットレートを割り当て,超低ビットレートでも精度を維持する,(2)RTCによるビデオ劣化がMLLMの精度にどのように影響するかを評価する,Degraded Video Understanding Benchmarkを提案する。
実世界のアップリンクトレースを使用したプロトタイプ実験では、既存の手法と比較して、Articは精度を15.12%向上し、レイテンシを135.31ms削減している。
関連論文リスト
- Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI [7.522638089716453]
AI Video Chatはリアルタイムコミュニケーション(RTC)の新しいパラダイムとして登場し、1人のピアが人間ではなく、マルチモーダル大言語モデル(MLLM)である。
これは、MLLM推論が応答時間の大部分を占め、ビデオストリーミングにはほとんど時間が残らないため、レイテンシーに重大な問題を引き起こす。
AI指向のリアルタイム通信フレームワークであるArticを提案し、"人間がビデオを見ている"から"AIビデオ"へのネットワーク要求シフトを探求する。
論文 参考訳(メタデータ) (2025-07-14T17:34:49Z) - VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning [50.33337482489673]
本稿では,RFT(Reinforcement Fine-temporalning)による映像知覚の向上を目的とする。
我々は,チャット機能を犠牲にすることなく,最先端のリアルタイムタスクを実現する強力なビデオMLLMであるVideoChat-R1を開発した。
ビデオMLLMのタスク強化におけるRTTの可能性について検討した。
論文 参考訳(メタデータ) (2025-04-09T15:09:27Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。