Fugu-MT 論文翻訳(概要): Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models

論文の概要: Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models

arxiv url: http://arxiv.org/abs/2407.10299v2
Date: Sat, 20 Jul 2024 07:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 00:12:27.292821
Title: Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models
Title（参考訳）: ルールに従う:大規模言語モデルを用いたビデオ異常検出のための推論
Authors: Yuchen Yang, Kwonjoon Lee, Behzad Dariush, Yinzhi Cao, Shao-Yuan Lo,
Abstract要約: ビデオ異常検出は、セキュリティ監視や自動運転といったアプリケーションには不可欠である。既存のVADメソッドは、検出の背後にある根拠をほとんど示さず、現実世界のデプロイメントに対する公衆の信頼を妨げる。本稿では,大言語モデルを用いたVADのためのルールベースの推論フレームワークであるAnomalyRulerを提案する。
参考スコア（独自算出の注目度）: 21.48544455321618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Anomaly Detection (VAD) is crucial for applications such as security surveillance and autonomous driving. However, existing VAD methods provide little rationale behind detection, hindering public trust in real-world deployments. In this paper, we approach VAD with a reasoning framework. Although Large Language Models (LLMs) have shown revolutionary reasoning ability, we find that their direct use falls short of VAD. Specifically, the implicit knowledge pre-trained in LLMs focuses on general context and thus may not apply to every specific real-world VAD scenario, leading to inflexibility and inaccuracy. To address this, we propose AnomalyRuler, a novel rule-based reasoning framework for VAD with LLMs. AnomalyRuler comprises two main stages: induction and deduction. In the induction stage, the LLM is fed with few-shot normal reference samples and then summarizes these normal patterns to induce a set of rules for detecting anomalies. The deduction stage follows the induced rules to spot anomalous frames in test videos. Additionally, we design rule aggregation, perception smoothing, and robust reasoning strategies to further enhance AnomalyRuler's robustness. AnomalyRuler is the first reasoning approach for the one-class VAD task, which requires only few-normal-shot prompting without the need for full-shot training, thereby enabling fast adaption to various VAD scenarios. Comprehensive experiments across four VAD benchmarks demonstrate AnomalyRuler's state-of-the-art detection performance and reasoning ability. AnomalyRuler is open-source and available at: https://github.com/Yuchen413/AnomalyRuler
Abstract（参考訳）: ビデオ異常検出(VAD)は、セキュリティ監視や自動運転といったアプリケーションには不可欠である。しかしながら、既存のVADメソッドは検出の背後にある根拠をほとんど示さず、現実のデプロイメントに対する公衆の信頼を妨げている。本稿では,VADに推論の枠組みでアプローチする。 LLM(Large Language Models)は革命的推論能力を示しているが、それらの直接的な使用はVADに劣っている。具体的には、LLMsで事前訓練された暗黙の知識は、一般的な文脈に焦点をあてており、それゆえ、特定の現実世界のVADシナリオに当てはまらないため、柔軟性と不正確性をもたらす。そこで本研究では,ALD と LLM を組み合わせた新しいルールベース推論フレームワーク AnomalyRuler を提案する。 AnomalyRulerは、誘導と推論の2つの主要なステージから構成される。誘導段階では、LSMは数発の正常参照サンプルで供給され、その後これらの正常なパターンを要約して、異常を検出するための一連の規則を誘導する。推論段階は、テストビデオ中の異常フレームを見つけるための誘導規則に従う。さらに,ルールアグリゲーション,知覚のスムース化,ロバストな推論戦略を設計し,AnomalyRulerのロバスト性をさらに強化する。 AnomalyRulerは、ワンクラスのVADタスクの最初の推論アプローチであり、フルショットのトレーニングを必要とせずに、ほとんどノーマルショットのプロンプトを必要とせず、様々なVADシナリオへの迅速な適応を可能にする。 4つのVADベンチマークの総合的な実験は、AnomalyRulerの最先端検出性能と推論能力を示している。 AnomalyRulerはオープンソースで、https://github.com/Yuchen413/AnomalyRulerで利用可能である。

関連論文リスト

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection [85.29900916231655]
Reason-IADは、説明可能な産業異常検出のための知識誘導型動的潜在推論フレームワークである。実験により、Reason-IADは最先端の手法よりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2026-02-10T14:54:17Z)
From Gameplay Traces to Game Mechanics: Causal Induction with Large Language Models [64.43268969806098]
本稿では,観測データから法則を推定できる因果誘導について検討する。本稿では,VGDL生成に対する2つのアプローチを比較する。観測からの直接コード生成と,まず構造因果モデル(SCM)を推定し,次にVGDLに変換する2段階法である。その結果,SCMに基づくアプローチは,直接生成よりも基礎的真実に近いVGDL記述を多く生み出すことがわかった。
論文参考訳（メタデータ） (2026-01-30T08:48:23Z)
Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文参考訳（メタデータ） (2025-10-16T18:06:46Z)
PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。 LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文参考訳（メタデータ） (2025-07-25T00:15:31Z)
HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文参考訳（メタデータ） (2025-07-23T10:41:46Z)
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文参考訳（メタデータ） (2025-05-29T14:48:10Z)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳（メタデータ） (2025-05-26T12:05:16Z)
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。 SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文参考訳（メタデータ） (2025-04-14T15:30:03Z)
Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,大言語モデルにおいて,ノイズの多い例で融合したデータからルールを推論する能力を評価するタスクであるRobust Rule Injectionを紹介する。また,SRR(Sample-steered Rule Refinement)を提案する。本研究は, LLMの推論に挑戦し, 仮説のドリフトやパターンオーバーフィッティングへの感受性を明らかにし, 人為的誘導システム開発に不可欠な実証的証拠を提供した。
論文参考訳（メタデータ） (2025-02-22T10:03:19Z)
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models [29.078437003042357]
Zero-Shot Anomaly Detection (ZSAD)はADパラダイムである。本稿では,ZSAD と推論のための視覚アシスタントである Anomaly-OneVision (Anomaly-OV) を提案する。
論文参考訳（メタデータ） (2025-02-11T14:50:43Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
From Explicit Rules to Implicit Reasoning in Weakly Supervised Video Anomaly Detection [1.8274323268621635]
本稿では,ルールベースビオレンスモニタリング(RuleVM)について紹介する。 RuleVMはデュアルブランチアーキテクチャを採用している: 粗いバイナリ分類に視覚的特徴を使用する暗黙のブランチ、シーンフレームとアクションチャネルに特徴抽出を分割する、そして、きめ細かい分類に言語イメージアライメントを活用する明示的なブランチ。明示的なブランチは、最先端のYOLO-Worldモデルを使用してビデオフレーム内のオブジェクト検出を行い、関連ルールはビデオディスクリプタとしてデータから抽出される。
論文参考訳（メタデータ） (2024-10-29T12:22:07Z)
Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。 VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文参考訳（メタデータ） (2024-06-18T03:19:24Z)
PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection [59.34973469354926]
本稿では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。
論文参考訳（メタデータ） (2024-04-08T06:53:30Z)
Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
論文参考訳（メタデータ） (2024-04-01T09:34:55Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。 RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文参考訳（メタデータ） (2023-11-06T08:50:29Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Machine Learning with Probabilistic Law Discovery: A Concise Introduction [77.34726150561087]
Probabilistic Law Discovery (PLD) は、確率論的ルール学習の変種を実装した論理ベースの機械学習手法である。 PLDはDecision Tree/Random Forestメソッドに近いが、関連するルールの定義方法に大きく異なる。本稿はPLDの主な原則を概説し、その利点と限界を強調し、いくつかのアプリケーションガイドラインを提供する。
論文参考訳（メタデータ） (2022-12-22T17:40:13Z)
Towards Open Set Video Anomaly Detection [11.944167192592905]
Open Set Video Anomaly Detection (OpenVAD) は、既知の異常と新しい異常の両方が存在するビデオデータから異常事象を識別することを目的としている。本研究では, 深層学習 (EDL) と正規化フロー (NFs) をマルチインスタンス学習 (MIL) フレームワークに統合することにより, オープンVAD 問題に対する弱教師付き手法を開発した。
論文参考訳（メタデータ） (2022-08-23T17:53:34Z)
A Distance-based Anomaly Detection Framework for Deep Reinforcement Learning [33.623558899286635]
深層強化学習(RL)システムでは、異常な状態が予測不能な行動や安全でない行動を引き起こす可能性があり、重大なリスクを引き起こす。深部RLアルゴリズムのための新しいMahalanobis distance-based anomaly detection framework, textitMDXを提案する。 MDXは、オフラインとオンラインの両方の設定において、ランダム、逆境、およびアウト・オブ・ディストリビューション(OOD)状態のアウトレイラに同時に対処する。
論文参考訳（メタデータ） (2021-09-21T00:09:03Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。