論文の概要: T-MASK: Temporal Masking for Probing Foundation Models across Camera Views in Driver Monitoring
- arxiv url: http://arxiv.org/abs/2508.16207v2
- Date: Mon, 25 Aug 2025 05:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 12:26:22.576619
- Title: T-MASK: Temporal Masking for Probing Foundation Models across Camera Views in Driver Monitoring
- Title(参考訳): T-MASK: ドライバーモニタリングにおけるカメラビューにおける基礎モデル探索のための時間的マスキング
- Authors: Thinesh Thiyakesan Ponbagavathi, Kunyu Peng, Alina Roitberg,
- Abstract要約: イメージファウンデーションモデルを1つのトレーニングビューを使用してドライバ監視に適用する。
本研究では,2つの基礎モデル (DINOv2 と CLIP) とパラメータ効率の良いファインチューニング (PEFT) とフルファインチューニング (フルファインチューニング) を比較した。
T-MASK - 時間的トークンマスキングを利用する新しい画像とビデオの探索手法を紹介する。
- 参考スコア(独自算出の注目度): 18.727894855479494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Changes of camera perspective are a common obstacle in driver monitoring. While deep learning and pretrained foundation models show strong potential for improved generalization via lightweight adaptation of the final layers ('probing'), their robustness to unseen viewpoints remains underexplored. We study this challenge by adapting image foundation models to driver monitoring using a single training view, and evaluating them directly on unseen perspectives without further adaptation. We benchmark simple linear probes, advanced probing strategies, and compare two foundation models (DINOv2 and CLIP) against parameter-efficient fine-tuning (PEFT) and full fine-tuning. Building on these insights, we introduce T-MASK -- a new image-to-video probing method that leverages temporal token masking and emphasizes more dynamic video regions. Benchmarked on the public Drive&Act dataset, T-MASK improves cross-view top-1 accuracy by $+1.23\%$ over strong probing baselines and $+8.0\%$ over PEFT methods, without adding any parameters. It proves particularly effective for underrepresented secondary activities, boosting recognition by $+5.42\%$ under the trained view and $+1.36\%$ under cross-view settings. This work provides encouraging evidence that adapting foundation models with lightweight probing methods like T-MASK has strong potential in fine-grained driver observation, especially in cross-view and low-data settings. These results highlight the importance of temporal token selection when leveraging foundation models to build robust driver monitoring systems. Code and models will be made available at https://github.com/th-nesh/T-MASK to support ongoing research.
- Abstract(参考訳): カメラの視点の変化は、ドライバーの監視において一般的な障害である。
ディープラーニングと事前学習された基礎モデルは、最終レイヤの軽量な適応("プロブ")を通じて、一般化を向上する可能性を示す一方で、見当たらない視点に対する堅牢性は、未調査のままである。
本研究では,イメージファウンデーションモデルを1つのトレーニングビューを用いてドライバ監視に適用し,さらに適応することなく,見えない視点で直接評価することで,この課題を考察する。
簡単な線形プローブのベンチマーク,先進的な探索手法,および2つの基礎モデル(DINOv2とCLIP)とパラメータ効率細調整(PEFT)とフル微調整を比較した。
これらの知見に基づいて、時間的トークンマスキングを活用し、よりダイナミックなビデオ領域を強調する新しい画像とビデオの探索手法であるT-MASKを紹介する。
パブリックなDrive&ActデータセットでベンチマークされたT-MASKは、強力なプロブリングベースラインよりも$+1.23\%$、PEFTメソッドよりも$+8.0\%$を、パラメータを追加せずに、クロスビューのトップ-1精度を改善する。
未表現のセカンダリアクティビティには特に有効であり、トレーニングされたビューでは$+5.42\%、クロスビュー設定では$+1.36\%である。
この研究は、T-MASKのような軽量な探索手法で基礎モデルを適応させることが、特にクロスビューや低データ設定において、きめ細かいドライバー観察に強い可能性を秘めていることを示す。
これらの結果は,ロバストな運転監視システムを構築するために基礎モデルを活用する場合,時間的トークン選択の重要性を強調している。
コードとモデルは、現在進行中の研究をサポートするためにhttps://github.com/th-nesh/T-MASKで公開される。
関連論文リスト
- Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - Practical Manipulation Model for Robust Deepfake Detection [55.2480439325792]
画像超解像領域において,より現実的な劣化モデルを構築した。
擬似フェイクの空間を、ポアソンブレンディング、より多様なマスク、ジェネレータアーティファクト、およびイントラクタを用いて拡張する。
DFDCデータセットとDFDCPデータセットでは、それぞれ3.51%$と6.21%$AUCが明らかに増加した。
論文 参考訳(メタデータ) (2025-06-05T15:06:16Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
入力摂動によってモデル予測を操作するモデル再プログラミングパラダイムにより,本手法はトレーニング済みのVLMモデルを再プログラムすることができる。
いくつかの人気のあるベンチマークデータセットの実験では、ディープフェイク検出のクロスデータセットとクロスマニピュレーションのパフォーマンスが大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis [0.06282171844772422]
本プロジェクトは,事前学習対象検出モデルの予測性能を向上させるための3段階の手法を提案し,実装した。
提案手法は、任意の入力解像度設定の下で、YOLO v5m6 と Faster RCNN-FPN の平均精度を改善する。
テストビデオのオーバーテイクを検出すると、Fスコア0.88を達成する。
論文 参考訳(メタデータ) (2024-07-21T15:37:55Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Foundation Models for Structural Health Monitoring [17.37816294594306]
本稿では,トランスフォーマーニューラルネットワークをMasked Auto-Encoderアーキテクチャを用いて,構造的健康モニタリングのための基礎モデルとして初めて利用することを提案する。
自己教師付き事前学習を通じて、複数の大規模データセットから一般化可能な表現を学習する能力を実証する。
本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-04-03T13:32:44Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。