論文の概要: SRVAU-R1: Enhancing Video Anomaly Understanding via Reflection-Aware Learning
- arxiv url: http://arxiv.org/abs/2602.01004v1
- Date: Sun, 01 Feb 2026 03:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.521386
- Title: SRVAU-R1: Enhancing Video Anomaly Understanding via Reflection-Aware Learning
- Title(参考訳): SRVAU-R1: 反射認識学習によるビデオ異常理解の強化
- Authors: Zihao Zhao, Shengting Cao, Muchao Ye,
- Abstract要約: ビデオ異常理解のための自己回帰強化推論(SRVAU-R1)は、MLLM推論にリフレクションを組み込んだリフレクション対応学習フレームワークである。
SRVAU-R1は既存の手法を一貫して上回り、時間的異常な局所化精度と推論品質の両方において大幅な改善を達成している。
- 参考スコア(独自算出の注目度): 7.652418192167207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have demonstrated significant progress in reasoning capabilities and shown promising effectiveness in video anomaly understanding (VAU) tasks. However, existing MLLM-based approaches remain largely focused on surface-level descriptions of anomalies, lacking deep reasoning over abnormal behaviors like explicit self-reflection and self-correction. To address that, we propose Self-Reflection-Enhanced Reasoning for Video Anomaly Understanding (SRVAU-R1), a reflection-aware learning framework that incorporates reflection in MLLM reasoning. Specifically, SRVAU-R1 introduces the first reflection-oriented Chain-of-Thought dataset tailored for VAU, providing structured supervision with initial reasoning, self-reflection, and revised reasoning. Based on that, it includes a novel reflection-aware learning paradigm with supervised fine-tuning and reinforcement fine-tuning to enhance multi-modal reasoning for VAU. Extensive experiments on multiple video anomaly benchmarks demonstrate that SRVAU-R1 consistently outperforms existing methods, achieving significant improvements in both temporal anomaly localization accuracy and reasoning quality.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は推論能力に大きな進歩を示し、ビデオ異常理解(VAU)タスクにおいて有望な効果を示した。
しかし、既存のMLLMベースのアプローチは、明らかに自己回帰や自己補正のような異常な振る舞いに対する深い推論を欠いた、表面レベルの異常の記述に主に焦点を当てている。
そこで我々は,MLLM推論にリフレクションを組み込んだリフレクション対応学習フレームワークSRVAU-R1を提案する。
具体的には、SRVAU-R1はVAU用に調整された最初のリフレクション指向のChain-of-Thoughtデータセットを導入し、初期推論、自己回帰、修正された推論による構造化された監視を提供する。
これに基づいて、VAUのマルチモーダル推論を強化するため、教師付き微調整と強化微調整を備えた新しいリフレクション対応学習パラダイムを含む。
複数のビデオ異常ベンチマークの大規模な実験により、SRVAU-R1は既存の手法より一貫して優れており、時間的異常な局所化精度と推論品質の両方において大幅な改善が達成されている。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models [31.62165580395724]
大規模言語モデル(LLM)は、幅広い推論タスクで顕著なパフォーマンスを示している。
適応エントロピーポリシー最適化(AEPO)と呼ばれる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-11-09T13:33:46Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [45.28220409043598]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。