論文の概要: PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios
- arxiv url: http://arxiv.org/abs/2601.22575v1
- Date: Fri, 30 Jan 2026 05:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.239159
- Title: PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios
- Title(参考訳): PhoStream: モバイルシナリオにおけるOmnimodal Assistantのリアルタイムストリーミングベンチマーク
- Authors: Xudong Lu, Huankang Guan, Yang Bo, Jinpeng Chen, Xintong Guo, Shuhan Li, Fang Liu, Peiwen Sun, Xueying Li, Wei Zhang, Xue Yang, Rui Liu, Hongsheng Li,
- Abstract要約: PhoStreamは、ビデオ、オーディオ、時間的推論を評価するために、オンスクリーンとオフスクリーンのシナリオを統合する最初のモバイル中心のストリーミングベンチマークである。
厳格な人間の検証を支援する自動生成パイプラインで構築し、リアルなオンライン推論パイプラインを使用してモデルを評価する。
- 参考スコア(独自算出の注目度): 43.4814616381935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models excel at offline audio-visual understanding, but their ability to serve as mobile assistants in continuous real-world streams remains underexplored. In daily phone use, mobile assistants must track streaming audio-visual inputs and respond at the right time, yet existing benchmarks are often restricted to multiple-choice questions or use shorter videos. In this paper, we introduce PhoStream, the first mobile-centric streaming benchmark that unifies on-screen and off-screen scenarios to evaluate video, audio, and temporal reasoning. PhoStream contains 5,572 open-ended QA pairs from 578 videos across 4 scenarios and 10 capabilities. We build it with an Automated Generative Pipeline backed by rigorous human verification, and evaluate models using a realistic Online Inference Pipeline and LLM-as-a-Judge evaluation for open-ended responses. Experiments reveal a temporal asymmetry in LLM-judged scores (0-100): models perform well on Instant and Backward tasks (Gemini 3 Pro exceeds 80), but drop sharply on Forward tasks (16.40), largely due to early responses before the required visual and audio cues appear. This highlights a fundamental limitation: current MLLMs struggle to decide when to speak, not just what to say. Code and datasets used in this work will be made publicly accessible at https://github.com/Lucky-Lance/PhoStream.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、オフラインの音声・視覚的理解において優れているが、連続した現実世界のストリームでモバイルアシスタントとして機能する能力はまだ未定である。
毎日の電話使用では、モバイルアシスタントはストリーミングオーディオの視覚入力を追跡し、適切なタイミングで応答しなければならないが、既存のベンチマークは、複数の選択の質問に制限される場合や、短いビデオを使用する場合が多い。
本稿では,PhoStreamについて紹介する。PhoStreamは,ビデオ,音声,時間的推論を評価するために,オンスクリーンおよびオフスクリーンシナリオを統合する最初のモバイル中心ストリーミングベンチマークである。
PhoStreamには、4つのシナリオにまたがる578のビデオと10の機能から572のオープンエンドQAペアが含まれている。
厳密な人間検証によって支援された自動生成パイプラインを用いて構築し、リアルなオンライン推論パイプラインとLLM-as-a-Judgeによるオープンな応答の評価を用いてモデルを評価する。
LLM-judged スコア (0-100): Instant および Backward タスク(Gemini 3 Pro は 80 を超えているが、フォワード タスク (16.40) は、要求される視覚的およびオーディオ的キューが現れる前の早期の応答によって大幅に低下する。
現在のMLLMは、何を言うべきかだけでなく、いつ話すかを決めるのに苦労しています。
この作業で使用されるコードとデータセットはhttps://github.com/Lucky-Lance/PhoStream.comで公開されている。
関連論文リスト
- StreamingVLM: Real-Time Understanding for Infinite Video Streams [23.94087606884915]
StreamingVLMは、無限視覚入力のリアルタイムで安定した理解のために設計されたモデルである。
私たちのアプローチは、トレーニングとストリーミング推論を整合させる統合フレームワークです。
Inf-Streams-Evalでは、StreamingVLMはGPT-4O miniに対して66.18%の勝利率を獲得し、1つのNVIDIA H100上で最大8FPSで安定したリアルタイムパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-10T17:59:58Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [20.608124640950276]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-03-08T13:44:38Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? [51.45196331624591]
OVO-Benchは、高度なオンラインビデオ理解機能のための新しいベンチマークである。
12のタスクで構成され、644のユニークなビデオと、正確なタイムスタンプを備えた約2,800の細かいメタアノテーションで構成されている。
Video-LLMの9つの評価によると、従来のベンチマークの進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦戦している。
論文 参考訳(メタデータ) (2025-01-09T19:00:01Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。