論文の概要: Simplifying Traffic Anomaly Detection with Video Foundation Models
- arxiv url: http://arxiv.org/abs/2507.09338v1
- Date: Sat, 12 Jul 2025 16:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.971422
- Title: Simplifying Traffic Anomaly Detection with Video Foundation Models
- Title(参考訳): ビデオ基礎モデルによる交通異常検出の簡易化
- Authors: Svetlana Orlova, Tommie Kerssies, Brunó B. Englert, Gijs Dubbelman,
- Abstract要約: エゴ中心交通異常検出(TAD)の最近の手法は、複雑な多段階もしくは多表現融合アーキテクチャに依存していることが多い。
近年の視覚知覚の知見は、先進的な事前訓練によって実現された基礎モデルにより、単純で柔軟なアーキテクチャが特殊設計より優れていることを示唆している。
ビデオビジョン変換器(Video ViTs)を用いて,アーキテクチャ的にシンプルなエンコーダのみのアプローチについて検討し,事前学習が強力なTAD性能を実現する方法について検討する。
- 参考スコア(独自算出の注目度): 1.0999592665107416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods for ego-centric Traffic Anomaly Detection (TAD) often rely on complex multi-stage or multi-representation fusion architectures, yet it remains unclear whether such complexity is necessary. Recent findings in visual perception suggest that foundation models, enabled by advanced pre-training, allow simple yet flexible architectures to outperform specialized designs. Therefore, in this work, we investigate an architecturally simple encoder-only approach using plain Video Vision Transformers (Video ViTs) and study how pre-training enables strong TAD performance. We find that: (i) strong pre-training enables simple encoder-only models to match or even surpass the performance of specialized state-of-the-art TAD methods, while also being significantly more efficient; (ii) although weakly- and fully-supervised pre-training are advantageous on standard benchmarks, we find them less effective for TAD. Instead, self-supervised Masked Video Modeling (MVM) provides the strongest signal; and (iii) Domain-Adaptive Pre-Training (DAPT) on unlabeled driving videos further improves downstream performance, without requiring anomalous examples. Our findings highlight the importance of pre-training and show that effective, efficient, and scalable TAD models can be built with minimal architectural complexity. We release our code, domain-adapted encoders, and fine-tuned models to support future work: https://github.com/tue-mps/simple-tad.
- Abstract(参考訳): 近年,エゴ中心の交通異常検出(TAD)手法は,複雑な多段階・多表現融合アーキテクチャに依存していることが多いが,そのような複雑さが必要であるかどうかは定かではない。
近年の視覚知覚の知見は、先進的な事前訓練によって実現された基礎モデルにより、単純で柔軟なアーキテクチャが特殊設計より優れていることを示唆している。
そこで本研究では,ビデオビジョン変換器(Video ViTs)を用いたアーキテクチャ上シンプルなエンコーダのみのアプローチについて検討し,事前学習が強力なTAD性能を実現する方法について検討する。
以下に示す。
(i)強力な事前学習により、簡単なエンコーダのみのモデルでも、最先端のTAD手法の性能に適合したり、超越したりできるが、効率は著しく向上する。
(II) 標準ベンチマークでは, 弱性, 完全教師付き事前学習が有利であるが, TADでは効果が低かった。
代わりに、MVM (Self-supervised Masked Video Modeling) が最も強力な信号を提供する。
三 未ラベル運転ビデオにおけるドメイン適応事前学習(DAPT)は、異常な例を必要とせず、下流のパフォーマンスをさらに向上させる。
我々の発見は、事前トレーニングの重要性を強調し、アーキテクチャの複雑さを最小限に抑えて、効率的、効率的、スケーラブルなTADモデルを構築することができることを示す。
将来の作業をサポートするために、コード、ドメイン適応エンコーダ、微調整されたモデルをリリースします。
関連論文リスト
- Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [18.402668470092294]
合成ビデオ生成は、実際のものとはほとんど区別できない、非常にリアルな高解像度ビデオを生成することができる。
いくつかのビデオ法医学検出器が最近提案されているが、しばしば一般化が不十分である。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。
我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文 参考訳(メタデータ) (2025-03-10T12:43:51Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Self-Supervised Learning with Generative Adversarial Networks for Electron Microscopy [0.0]
本稿では,自己教師付き事前学習が,下流タスクの高精度な微調整をいかに促進するかを示す。
我々は、電子顕微鏡の文脈において、下流の様々なタスクにまたがる自己教師型事前学習の汎用性を実証する。
論文 参考訳(メタデータ) (2024-02-28T12:25:01Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Unbiased Learning of Deep Generative Models with Structured Discrete
Representations [7.9057320008285945]
構造化可変オートエンコーダ(SVAE)の学習のための新しいアルゴリズムを提案する。
我々はSVAEがデータの欠落時に個別の潜伏変数を組み込むことでマルチモーダル不確実性を扱う能力を初めて示す。
メモリ効率の高い暗黙差分法により,SVAEは不完全最適化に対して頑健さを示しつつ,勾配降下により学習しやすくなった。
論文 参考訳(メタデータ) (2023-06-14T03:59:21Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。