論文の概要: SPIKE-RL: Video-LLMs meet Bayesian Surprise
- arxiv url: http://arxiv.org/abs/2509.23433v1
- Date: Sat, 27 Sep 2025 18:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.222486
- Title: SPIKE-RL: Video-LLMs meet Bayesian Surprise
- Title(参考訳): SPIKE-RL、バイエルン・サプライズとビデオLLM提携
- Authors: Sahithya Ravi, Aditya Chinchure, Raymond T. Ng, Leonid Sigal, Vered Shwartz,
- Abstract要約: 本稿では,映像ストリームにおける新たな視覚的証拠によって引き起こされる信念更新として,ベイジアンサプライズを定量化する推論時フレームワークSPIKEを紹介する。
SPIKEはビデオのサプライズを効果的にローカライズし、正(FunQA)と負(Oops!)のサプライズベンチマークで人間と強く相関する。
ビデオキャプションからの報酬信号に基づいて,GRPOを利用して信念仮説を最適化するSPIKE-RLを開発した。
- 参考スコア(独自算出の注目度): 34.844403626134444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world videos often show routine activities punctuated by memorable, surprising events. However, most Video-LLMs process videos by sampling frames uniformly, likely missing critical moments that define a video's narrative. We introduce SPIKE, an inference-time framework that quantifies Bayesian Surprise as the belief update triggered by new visual evidence in the video stream, identifying moments where new visual evidence conflicts with prior beliefs. SPIKE effectively localizes surprise in videos, strongly correlated with humans on positive (FunQA) and negative (Oops!) surprise benchmarks. Since the beliefs of zero-shot Video-LLMs are often suboptimal, we develop SPIKE-RL, which leverages GRPO to optimize belief hypotheses based on a reward signal from the video caption. SPIKE and SPIKE-RL guide query-agnostic surprise-weighted frame sampling, which allocates more frames to interesting moments in the video. With this strategy, we achieve consistent performance gains on five downstream benchmarks over uniform sampling. By enabling Video-LLMs to track beliefs and register surprise, our work paves the way for more robust models that can revise their understanding in response to new information.
- Abstract(参考訳): 実世界のビデオは、記憶に残る驚きの出来事によって句読される日常的な活動を示すことが多い。
しかし、ほとんどのビデオ-LLMはフレームを均一にサンプリングすることでビデオを処理する。
ビデオストリームにおける新たな視覚的エビデンスによって引き起こされる信念の更新として,ベイズ的サプライズを定量化する推論時フレームワークであるSPIKEを紹介し,新しい視覚的エビデンスと過去の信念が矛盾する瞬間を特定する。
SPIKEはビデオのサプライズを効果的にローカライズし、正(FunQA)と負(Oops!)のサプライズベンチマークで人間と強く相関する。
ゼロショットビデオLLMの信念は、しばしば準最適であるので、ビデオキャプションからの報酬信号に基づいて、GRPOを利用して信念仮説を最適化するSPIKE-RLを開発する。
SPIKEとSPIKE-RLはクエリ非依存のサプライズ重み付きフレームサンプリングを行い、ビデオ中の興味深い瞬間により多くのフレームを割り当てる。
この戦略により、一様サンプリングよりも5つの下流ベンチマークで一貫した性能向上を達成する。
Video-LLMsが信念を追跡し、サプライズを登録できるようにすることで、我々の研究は、新しい情報に反応して彼らの理解を再考できる、より堅牢なモデルへの道を開いた。
関連論文リスト
- Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。
そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Background-aware Moment Detection for Video Moment Retrieval [19.11524416308641]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
あいまいさのため、クエリは対応するモーメントの関連する詳細を完全にカバーしていない。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文 参考訳(メタデータ) (2023-06-05T09:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。