論文の概要: OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants
- arxiv url: http://arxiv.org/abs/2605.26485v1
- Date: Tue, 26 May 2026 02:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.591715
- Title: OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants
- Title(参考訳): OmniInteract:リアルタイムOmnimodalアシスタントのためのリアルタイムストリーミングインタラクションのベンチマーク
- Authors: Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li,
- Abstract要約: 音声-視覚的ストリームに対するネイティブ推論によって評価されたリアルタイム全言語モデルのストリーミングベンチマーク。
本研究では,対話型品質タイムラインF1,割り込み診断スイート,368の1QnAスロットを用いて,応答の正しさ,タイミング,不正出力の割り込み,コンテキスト継続性を評価した。
- 参考スコア(独自算出の注目度): 43.2907783462394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OmniInteract, a streaming benchmark for real-time omnimodal large language models evaluated through native online inference over audio-visual streams. Unlike offline video understanding or text-prompted streaming QA, OmniInteract preserves the original audio-visual stream and requires models to process it online, without access to future content. User queries and ambient sounds are embedded in the audio track, requiring models to detect multimodal triggers, decide when to respond, and answer while the stream unfolds. OmniInteract contains 250 videos with 1,430 temporally grounded response slots: 1,062 1Q1A slots across real-time, proactive, and nested scenarios, and 368 1QnA slots for continuous task monitoring and step guidance. Each slot includes a trigger, response window, and target answer. We evaluate response correctness, timing, invalid outputs, interruption handling, and context continuity using Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite, and Nested Chain Completion Score. Experiments show that current models remain weak in streaming interaction, with the best overall IA-QTF1 reaching only 0.368 and the best 1QnA IA-QTF1 only 0.052. Further study on mathematical reasoning in full-duplex settings shows that offline capability does not necessarily transfer to online interaction. Code and datasets will be made publicly accessible at https://github.com/Lucky-Lance/OmniInteract.
- Abstract(参考訳): 我々はOmniInteractを紹介した。OmniInteractは、オーディオ・ビジュアル・ストリーム上のネイティブなオンライン推論によって評価された、リアルタイムのOmnimodal大言語モデルのためのストリーミングベンチマークである。
オフラインのビデオ理解やテキストプロンプトストリーミングのQAとは異なり、OmniInteractはオリジナルのオーディオ・ビジュアルストリームを保存し、将来のコンテンツにアクセスすることなくオンラインで処理するモデルを必要とする。
ユーザクエリと環境音はオーディオトラックに埋め込まれており、モデルはマルチモーダルトリガーを検出し、いつ応答するかを決定し、ストリームが展開している間に答える必要がある。
OmniInteractには、リアルタイム、プロアクティブ、ネストシナリオにわたる1,062 1Q1Aスロットと、継続的タスク監視とステップガイダンスのための368 1QnAスロットがある。
各スロットにはトリガー、応答ウィンドウ、ターゲット応答が含まれる。
応答の正しさ,タイミング,不正出力,割り込み処理,コンテキスト継続性を,相互対応品質タイムラインF1,割り込み診断スイート,Nested Chain Completion Scoreを用いて評価した。
実験の結果、現在のモデルではストリーミングの相互作用が弱いままであり、IA-QTF1の最高値は0.368、IA-QTF1の最高値は0.052であった。
完全二重条件下での数学的推論に関するさらなる研究は、オフライン機能は必ずしもオンラインインタラクションに移行しないことを示している。
コードとデータセットはhttps://github.com/Lucky-Lance/OmniInteract.comで公開されている。
関連論文リスト
- StreamOV: Streaming Omni-Video Understanding via Evidence-Guided Memory and Response Triggering [39.92453666681465]
StreamOVは、バウンドメモリとプロアクティブ応答トリガを備えた効率的なオンラインオーディオ視覚推論のための、新しいStreaming Omni-Video理解フレームワークである。
応答のタイミングを決定するために、隠れ状態駆動のトリガーを使用しており、明示的なサイレントトーケン生成と外部ルータを避けている。
さまざまなストリーミングとビデオのベンチマークで最先端のパフォーマンスを実現し、オンラインとオフラインの両方のビデオ理解に有効であることを実証している。
論文 参考訳(メタデータ) (2026-05-25T09:23:19Z) - MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction [76.4461698685681]
Mini-o 4.5は、人間レベルのリアルタイムストリーミングインタラクションに向けた最新の取り組みです。
Omni-CPMは、オムニモードの知覚と出力を共有時間軸に沿って整列する統合ストリーミングフレームワークである。
合計9Bパラメータで、Mini-o 4.5は視力計算能力においてGemini 2.5 Flashにアプローチし、最先端のオープンな計算性能を提供する。
論文 参考訳(メタデータ) (2026-04-30T04:05:43Z) - UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction [7.775050285048427]
音声アシスタントは人間のような会話システムに向けて人工的な伝播を駆動しています。
音声活動検出(VAD)やターンテイク検出(TD)といったフロントエンドコンポーネントは、音声アシスタントにとって不可欠である。
本報告では, フルグレッシブ音声システムに適した初の統合音声フロントエンド LLM (UAF) を提案する。
論文 参考訳(メタデータ) (2026-04-21T08:24:55Z) - LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs [68.35684758116453]
このデータセットは、リッチなオーディオ視覚ダイナミクスを備えたオープンプラットフォームからソースされた高品質なビデオで構成されている。
我々は,長期記憶,時間的局所化,きめ細かい理解,マルチモーダル知覚など,ドメイン間のOmniLLMの能力について精査した。
オープンソースモデルは一般的に35%未満の精度を達成するが、Gemini 3 Proは65%のピーク精度に達する。
論文 参考訳(メタデータ) (2026-03-19T17:58:13Z) - PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios [43.4814616381935]
PhoStreamは、ビデオ、オーディオ、時間的推論を評価するために、オンスクリーンとオフスクリーンのシナリオを統合する最初のモバイル中心のストリーミングベンチマークである。
厳格な人間の検証を支援する自動生成パイプラインで構築し、リアルなオンライン推論パイプラインを使用してモデルを評価する。
論文 参考訳(メタデータ) (2026-01-30T05:17:21Z) - ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding [32.72568710955575]
本稿では,実時間オムニ・マルチモーダル・アシスタントであるROMAについて述べる。
ROMAは連続的な入力を同期マルチモーダル単位として処理し、密度の高いオーディオを離散ビデオフレームと整列させて粒度のミスマッチを処理する。
オンライン意思決定では、応答開始を生成から切り離して正確なトリガーを確実にする軽量なスポークヘッドを導入する。
論文 参考訳(メタデータ) (2026-01-15T12:09:04Z) - LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction [81.34648970317383]
本稿では,知覚,決定,反応を両立させるシステムであるDispiderを紹介する。
実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-06T18:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。