論文の概要: Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
- arxiv url: http://arxiv.org/abs/2507.10510v1
- Date: Mon, 14 Jul 2025 17:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.579283
- Title: Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI
- Title(参考訳): AIとのチャット:人間からAIへのリアルタイムビデオコミュニケーションの驚くべき転換
- Authors: Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang,
- Abstract要約: AI Video Chatはリアルタイムコミュニケーション(RTC)の新しいパラダイムとして登場し、1人のピアが人間ではなく、マルチモーダル大言語モデル(MLLM)である。
これは、MLLM推論が応答時間の大部分を占め、ビデオストリーミングにはほとんど時間が残らないため、レイテンシーに重大な問題を引き起こす。
AI指向のリアルタイム通信フレームワークであるArticを提案し、"人間がビデオを見ている"から"AIビデオ"へのネットワーク要求シフトを探求する。
- 参考スコア(独自算出の注目度): 7.522638089716453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI Video Chat emerges as a new paradigm for Real-time Communication (RTC), where one peer is not a human, but a Multimodal Large Language Model (MLLM). This makes interaction between humans and AI more intuitive, as if chatting face-to-face with a real person. However, this poses significant challenges to latency, because the MLLM inference takes up most of the response time, leaving very little time for video streaming. Due to network uncertainty and instability, transmission latency becomes a critical bottleneck preventing AI from being like a real person. To address this, we propose Artic, an AI-oriented Real-time Communication framework, exploring the network requirement shift from "humans watching video" to "AI understanding video". To reduce bitrate dramatically while maintaining MLLM accuracy, we propose Context-Aware Video Streaming that recognizes the importance of each video region for chat and allocates bitrate almost exclusively to chat-important regions. To avoid packet retransmission, we propose Loss-Resilient Adaptive Frame Rate that leverages previous frames to substitute for lost/delayed frames while avoiding bitrate waste. To evaluate the impact of video streaming quality on MLLM accuracy, we build the first benchmark, named Degraded Video Understanding Benchmark (DeViBench). Finally, we discuss some open questions and ongoing solutions for AI Video Chat.
- Abstract(参考訳): AI Video Chatはリアルタイムコミュニケーション(RTC)の新しいパラダイムとして登場し、ひとつのピアが人間ではなく、マルチモーダル大言語モデル(MLLM)である。
これにより、人間とAIの対話は、まるで実際の人と対面してチャットするように、より直感的になる。
しかし、MLLM推論が応答時間の大半を占め、ビデオストリーミングにはほとんど時間が残らないため、これはレイテンシーに重大な課題をもたらす。
ネットワークの不確実性と不安定性のため、トランスミッションレイテンシは、AIが現実の人間であるのを防ぐ重要なボトルネックとなる。
そこで我々は,AI指向のリアルタイムコミュニケーションフレームワークであるArticを提案する。
MLLMの精度を維持しながらビットレートを劇的に削減するために,チャットにおける各ビデオ領域の重要性を認識し,チャット重要領域にのみビットレートを割り当てるコンテキスト対応ビデオストリーミングを提案する。
パケット再送を回避するために,従来のフレームを利用して,ビットレートの無駄を回避しつつ,損失/遅延フレームを代用するロス・レジリエント適応フレームレートを提案する。
ビデオストリーミング品質がMLLM精度に与える影響を評価するため,DeViBench(Degraded Video Understanding Benchmark)と呼ばれる最初のベンチマークを構築した。
最後に、AI Video Chatのオープンな質問と進行中のソリューションについて議論する。
関連論文リスト
- Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - AI-Generated Video Detection via Perceptual Straightening [9.008575690370895]
本稿では,AI生成ビデオと自然を区別する新しい手法であるReStraVを提案する。
知覚的直交」仮説に着想を得て、モデルの表現領域における時間的曲率と段階的距離を定量化する。
我々の分析によると、AI生成ビデオは実際のビデオと比べて、曲率と距離のパターンがかなり異なる。
論文 参考訳(メタデータ) (2025-07-01T09:04:21Z) - SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [19.54521322177521]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-03-08T13:44:38Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation [38.25025849434312]
入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
論文 参考訳(メタデータ) (2022-08-29T16:56:35Z) - An End-to-End Integrated Computation and Communication Architecture for
Goal-oriented Networking: A Perspective on Live Surveillance Video [0.0]
本研究では,ライブフィードから重要なイベントをリアルタイムに識別するための状況認識ストリーミングを提案する。
提案手法は,2160p (UHD)ビデオに対して,送信機に必要な電力消費量を38.5%削減できることを示す。
論文 参考訳(メタデータ) (2022-04-05T04:59:54Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。