論文の概要: StreamSense: Streaming Social Task Detection with Selective Vision-Language Model Routing
- arxiv url: http://arxiv.org/abs/2601.22738v1
- Date: Fri, 30 Jan 2026 09:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.342762
- Title: StreamSense: Streaming Social Task Detection with Selective Vision-Language Model Routing
- Title(参考訳): StreamSense:選択型視覚言語モデルルーティングによるソーシャルタスク検出のストリーミング
- Authors: Han Wang, Deyi Ji, Lanyun Zhu, Jiebo Luo, Roy Ka-Wei Lee,
- Abstract要約: StreamSenseは、軽量なストリーミングエンコーダと、Vision-Language Modelのエキスパートへの選択的ルーティングを結合するストリーミング検出器である。
複数のソーシャルストリーミング検出タスク(感情分類やヘイトコンテンツモデレーションなど)におけるStreamSenseの評価を行う。
以上の結果から,選択的エスカレーションとdeferralは,ストリーミング型ソーシャルタスクの理解に有効なプリミティブであることが示唆された。
- 参考スコア(独自算出の注目度): 56.32296785595906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Live streaming platforms require real-time monitoring and reaction to social signals, utilizing partial and asynchronous evidence from video, text, and audio. We propose StreamSense, a streaming detector that couples a lightweight streaming encoder with selective routing to a Vision-Language Model (VLM) expert. StreamSense handles most timestamps with the lightweight streaming encoder, escalates hard/ambiguous cases to the VLM, and defers decisions when context is insufficient. The encoder is trained using (i) a cross-modal contrastive term to align visual/audio cues with textual signals, and (ii) an IoU-weighted loss that down-weights poorly overlapping target segments, mitigating label interference across segment boundaries. We evaluate StreamSense on multiple social streaming detection tasks (e.g., sentiment classification and hate content moderation), and the results show that StreamSense achieves higher accuracy than VLM-only streaming while only occasionally invoking the VLM, thereby reducing average latency and compute. Our results indicate that selective escalation and deferral are effective primitives for understanding streaming social tasks. Code is publicly available on GitHub.
- Abstract(参考訳): ライブストリーミングプラットフォームは、ビデオ、テキスト、オーディオの部分的および非同期的なエビデンスを利用して、ソーシャル信号に対するリアルタイムの監視と反応を必要とする。
本稿では,VLM(Vision-Language Model)エキスパートへの選択的ルーティングと,軽量なストリーミングエンコーダを結合したストリーミング検出器StreamSenseを提案する。
StreamSenseは、軽量なストリーミングエンコーダでほとんどのタイムスタンプを処理し、ハード/アンビグラスなケースをVLMにエスカレートし、コンテキストが不十分な場合に決定を無効にする。
エンコーダはトレーニングされています
(i)視覚・聴覚の手がかりをテキスト信号と整合させるクロスモーダルなコントラスト用語
(II)IoU重み付き損失は、重みが低いターゲットセグメントを重み付けし、セグメント境界を越えたラベル干渉を緩和する。
本稿では,複数のソーシャルストリーミング検出タスク(感情分類やヘイトコンテンツモデレーションなど)におけるStreamSenseの評価を行い,ストリームセンスはVLMのみのストリーミングよりも高い精度を実現し,VLMを時折呼び出すだけで,平均遅延と計算能力が低下することを示した。
以上の結果から,選択的エスカレーションとdeferralは,ストリーミング型ソーシャルタスクの理解に有効なプリミティブであることが示唆された。
コードはGitHubで公開されている。
関連論文リスト
- Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [20.608124640950276]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-03-08T13:44:38Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Real-time Stereo-based 3D Object Detection for Streaming Perception [12.52037626475608]
本稿では,ストリーミング知覚のための3Dオブジェクト検出フレームワークStreamDSGNを紹介する。
StreamDSGNは、過去の情報を利用して、次の瞬間にオブジェクトの3D特性を直接予測する。
強いベースラインと比較して、StreamDSGNはストリーミング平均精度を最大4.33%向上させる。
論文 参考訳(メタデータ) (2024-10-16T09:23:02Z) - Learn to Compress (LtC): Efficient Learning-based Streaming Video
Analytics [3.2872586139884623]
LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。
LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:03Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。