論文の概要: COPRA: Conditional Parameter Adaptation with Reinforcement Learning for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.15325v1
- Date: Thu, 14 May 2026 18:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.062419
- Title: COPRA: Conditional Parameter Adaptation with Reinforcement Learning for Video Anomaly Detection
- Title(参考訳): COPRA:ビデオ異常検出のための強化学習による条件パラメータ適応
- Authors: Darryl Cherian Jacob, Xinyu Liu, Kai Wang, Pan He,
- Abstract要約: 映像異常検出(VAD)における視覚言語モデル(VLM)の性能は高い。
既存のVLMベースのVAD手法は、トレーニングと推論の根本的なミスマッチに悩まされる。
VLMベースのVADのための条件パラメータ適応フレームワークCOPRAを提案する。
- 参考スコア(独自算出の注目度): 10.332480827185973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown strong performance in video anomaly detection (VAD) while providing interpretable predictions. However, existing VLM-based VAD methods suffer from a fundamental mismatch between training and inference in both data distribution and model configuration. First, most approaches rely on static post-training adaptation, limiting generalization under distribution shifts such as unseen environments or anomaly types. Second, they train VLMs on sparse frames from long videos, but perform inference on densely sampled short segments, creating inconsistencies between training and testing. To address these limitations, we propose COPRA, a conditional parameter adaptation framework for VLM-based VAD. Instead of fixed prompts or shared parameter updates, COPRA generates input-specific parameter updates to dynamically adapt a frozen VLM for each video segment during both training and inference. Experiments show strong performance on standard VAD benchmarks, consistently outperforming static baselines in both in-domain and cross-domain settings. Moreover, COPRA generalizes beyond VAD to unseen tasks such as multiple-choice Video Question Answering and Dense Captioning. These results highlight COPRA as an effective weight-space generation framework for scalable, adaptive, and context-aware video understanding. The code will be released at https://github.com/THE-MALT-LAB/COPRA
- Abstract(参考訳): 視覚言語モデル(VLM)は、ビデオ異常検出(VAD)において高い性能を示し、解釈可能な予測を提供する。
しかし、既存のVLMベースのVAD手法は、データ分散とモデル構成の両方におけるトレーニングと推論の根本的なミスマッチに悩まされている。
第一に、ほとんどのアプローチは静的なポストトレーニング適応に依存し、目に見えない環境や異常タイプのような分布シフト下での一般化を制限する。
第2に、長いビデオからスパースフレームでVLMをトレーニングするが、密集した短いセグメントで推論を行い、トレーニングとテストの矛盾を生じさせる。
これらの制約に対処するために,VLM ベースの VAD のための条件パラメータ適応フレームワーク COPRA を提案する。
COPRAは、固定プロンプトや共有パラメータ更新の代わりに、入力固有のパラメータ更新を生成し、トレーニングと推論の両方の間、各ビデオセグメントに凍結したVLMを動的に適応させる。
実験では、標準のVADベンチマークで強いパフォーマンスを示し、ドメイン内およびクロスドメイン設定の静的ベースラインを一貫して上回っている。
さらに、COPRAはVADを超えて、マルチチョイスビデオ質問回答やDense Captioningのような目に見えないタスクに一般化する。
これらの結果は、COPRAをスケーラブルで適応的でコンテキスト対応のビデオ理解のための効果的な重み空間生成フレームワークとして強調する。
コードはhttps://github.com/the-MALT-LAB/COPRAで公開される。
関連論文リスト
- Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation [58.40817037271021]
DiTTA(Distillation-assisted Test-Time Adaptation)は、ISSモデルをアノテーション付きビデオなしで時間的に認識されたVSSモデルに変換する新しいフレームワークである。
完全教師付きVSS法と比較して,DITTAの有効性を示す。
論文 参考訳(メタデータ) (2026-04-13T03:47:08Z) - ESOM: Efficiently Understanding Streaming Video Anomalies with Open-world Dynamic Definitions [27.912128185225054]
オープンワールドビデオ異常検出(OWVAD)は、異なる異常定義の下で異常事象を検出し、説明することを目的としている。
最近のMLLMベースの手法は、将来有望なオープンワールドの一般化を示しているが、それでも3つの大きな制限に悩まされている。
本稿では,トレーニング不要な効率的なストリーミングOWVADモデルであるESOMを提案する。
論文 参考訳(メタデータ) (2026-04-09T03:51:14Z) - VSAS-BENCH: Real-Time Evaluation of Visual Streaming Assistant Models [39.78979236902648]
ストリーム視覚言語モデル(VLM)は、命令プロンプトと入力フレームのオンラインストリームが与えられた応答を連続的に生成する。
Visual Streaming Assistantsの新しいフレームワークとベンチマークであるVSAS-Benchを提案する。
論文 参考訳(メタデータ) (2026-04-08T22:31:20Z) - A Paradigm Shift: Fully End-to-End Training for Temporal Sentence Grounding in Videos [27.879461637513984]
ビデオの時間文グラウンド(TSGV)は、非トリミングビデオからの文クエリに意味的に対応する時間セグメントをローカライズすることを目的としている。
現在のほとんどの手法では、オフライン機能抽出のために事前訓練されたクエリ非依存のビジュアルエンコーダを採用しており、ビデオバックボーンは凍結されており、TSGVに最適化されていない。
本稿では,ビデオバックボーンとローカライゼーションヘッドを協調的に最適化する,完全なエンドツーエンドパラダイムを提案する。
論文 参考訳(メタデータ) (2026-04-03T08:26:12Z) - TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning [54.70019148172847]
テスト時強化学習(Test-Time Reinforcement Learning)のパラダイムをビデオ言語データに活用することにより,事前学習されたモデルを明示的なラベルなしで,テスト時のビデオサンプルに適応させることができる。
ビデオアプローチのためのテスト時間適応(TTA-Vid)は、同時に動作する2つのコンポーネントを組み合わせる。
TTA-Vidは、様々なビデオ推論タスクで一貫した改善をもたらし、大規模データで訓練された最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-04-01T09:52:57Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。