論文の概要: Make a Video Call with LLM: A Measurement Campaign over Five Mainstream Apps
- arxiv url: http://arxiv.org/abs/2510.00481v1
- Date: Wed, 01 Oct 2025 04:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.365188
- Title: Make a Video Call with LLM: A Measurement Campaign over Five Mainstream Apps
- Title(参考訳): LLMを使ったビデオ通話: 5つのメインストリームアプリケーションを対象とした計測キャンペーン
- Authors: Jiayang Xu, Xiangjie Huang, Zijie Li, Zili Meng,
- Abstract要約: 2025年、Large Language Model Servicesは、リアルタイムビデオ通信(RTC)を通じてAIエージェントと対話可能な、AIビデオチャットという新機能をローンチした。
既存のAIビデオチャットシステムの性能について、体系的な研究は行われていない。
本稿では, 品質, レイテンシ, 内部機構, システムオーバーヘッドの4次元にわたるメトリクスを慎重に設計した総合ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 5.654530501456321
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In 2025, Large Language Model (LLM) services have launched a new feature -- AI video chat -- allowing users to interact with AI agents via real-time video communication (RTC), just like chatting with real people. Despite its significance, no systematic study has characterized the performance of existing AI video chat systems. To address this gap, this paper proposes a comprehensive benchmark with carefully designed metrics across four dimensions: quality, latency, internal mechanisms, and system overhead. Using custom testbeds, we further evaluate five mainstream AI video chatbots with this benchmark. This work provides the research community a baseline of real-world performance and identifies unique system bottlenecks. In the meantime, our benchmarking results also open up several research questions for future optimizations of AI video chatbots.
- Abstract(参考訳): 2025年、Large Language Model(LLM)サービスが、リアルタイムビデオコミュニケーション(RTC)を通じてAIエージェントと対話する、AIビデオチャット(AI video chat)という新機能をローンチした。
その重要性にもかかわらず、既存のAIビデオチャットシステムの性能について、体系的な研究は行われていない。
このギャップに対処するため,本研究では,品質,レイテンシ,内部機構,システムオーバヘッドという4次元のメトリクスを慎重に設計した総合的なベンチマークを提案する。
カスタムテストベッドを使用して、このベンチマークで5つのメインストリームのAIビデオチャットボットを評価する。
この研究は、研究コミュニティに現実世界のパフォーマンスのベースラインを提供し、ユニークなシステムのボトルネックを特定します。
一方、我々のベンチマーク結果は、将来のAIビデオチャットボットの最適化に関するいくつかの研究質問も開きます。
関連論文リスト
- Respond Beyond Language: A Benchmark for Video Generation in Response to Realistic User Intents [30.228721661677493]
RealVideoQuestは、リアルタイムで視覚的に接地されたクエリに応答するテキスト・ツー・ビデオ(T2V)モデルの能力を評価するように設計されている。
ビデオ応答インテントで7.5Kの実際のユーザクエリを特定し、4.5Kの高品質なクエリとビデオのペアを構築する。
実験によると、現在のT2Vモデルは、実際のユーザクエリに効果的に対処するのに苦労している。
論文 参考訳(メタデータ) (2025-06-02T13:52:21Z) - Can Vision-Language Models Answer Face to Face Questions in the Real-World? [8.006029714081997]
Qualcomm Interactive Video dataset (IVD) という新しいデータセットとベンチマークを導入する。
このデータセットは単純な質問回答設定に基づいており、ユーザーはカメラとオーディオ入力に基づいて、システムがリアルタイムで答えなければならない質問を行う。
既存のモデルがこのタスクにおいて人間のパフォーマンスよりもはるかに遅れていることを示し、パフォーマンスギャップの主な原因を特定する。
論文 参考訳(メタデータ) (2025-03-25T05:13:12Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - Seq2Seq Model-Based Chatbot with LSTM and Attention Mechanism for Enhanced User Interaction [1.937324318931008]
本研究では、注意機構とLong Short-Term Memory(LSTM)セルを組み込んだエンコーダデコーダアーキテクチャを備えたSeq2Seqモデルを提案する。
提案されているSeq2Seqモデルベースのロボットは、モロッコのドラア・タフィラレ(Draa-Tafilalet)にある観光セクター向けのデータセットで訓練され、検証され、テストされている。
論文 参考訳(メタデータ) (2024-12-27T23:50:54Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。