論文の概要: Zero-Shot Distracted Driver Detection via Vision Language Models with Double Decoupling
- arxiv url: http://arxiv.org/abs/2601.08467v1
- Date: Tue, 13 Jan 2026 11:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.17778
- Title: Zero-Shot Distracted Driver Detection via Vision Language Models with Double Decoupling
- Title(参考訳): ダブルデカップリングを用いた視覚言語モデルによるゼロショット抽出ドライバ検出
- Authors: Takamichi Miyata, Sumiko Miyata, Andrew Morris,
- Abstract要約: ヴィジュアル言語モデル(VLM)は強力なゼロショット画像分類を可能にするが、既存のVLMベースの逸脱ドライバ検出器は現実の環境では性能が劣ることが多い。
我々は、主観的な外観の変化が重要なボトルネックであると認識し、ドライバーが何をしているかというよりも、ドライバーが誰であるかという判断に繋がる。
本稿では,ゼロショット分類前の画像埋め込みからドライバ外観の埋め込みを抽出し,その影響を除去するサブジェクトデカップリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.6882042556551609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distracted driving is a major cause of traffic collisions, calling for robust and scalable detection methods. Vision-language models (VLMs) enable strong zero-shot image classification, but existing VLM-based distracted driver detectors often underperform in real-world conditions. We identify subject-specific appearance variations (e.g., clothing, age, and gender) as a key bottleneck: VLMs entangle these factors with behavior cues, leading to decisions driven by who the driver is rather than what the driver is doing. To address this, we propose a subject decoupling framework that extracts a driver appearance embedding and removes its influence from the image embedding prior to zero-shot classification, thereby emphasizing distraction-relevant evidence. We further orthogonalize text embeddings via metric projection onto Stiefel manifold to improve separability while staying close to the original semantics. Experiments demonstrate consistent gains over prior baselines, indicating the promise of our approach for practical road-safety applications.
- Abstract(参考訳): 引き離された運転は、堅牢でスケーラブルな検出方法を要求する交通衝突の大きな原因である。
ヴィジュアル言語モデル(VLM)は強力なゼロショット画像分類を可能にするが、既存のVLMベースの逸脱ドライバ検出器は現実の環境では性能が劣ることが多い。
VLMはこれらの要因を行動の手がかりと絡み合わせることで、ドライバーが何をしているかではなく、ドライバーが誰であるかという判断に導かれる。
そこで本研究では,ゼロショット分類に先立つ画像埋め込みからドライバの外観を抽出し,その影響を除去する対象分離フレームワークを提案する。
さらに、計量射影によるテキスト埋め込みをStiefel多様体に直交させ、元の意味論に近づきながら分離性を向上させる。
実験では、従来のベースラインよりも一貫した利得を示し、実用的な道路安全アプリケーションに対する我々のアプローチの可能性を示唆している。
関連論文リスト
- Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - An object detection approach for lane change and overtake detection from motion profiles [3.545178658731506]
本稿では,移動プロファイルに適用した新しい物体検出手法を用いて,オーバーテイクおよびレーン変更動作の同定を行う。
モデルをトレーニングし、テストするために、ヘテロジニアスなダシュカムビデオから得られたモーションプロファイル画像の内部データセットを作成しました。
標準のオブジェクト検出アプローチに加えて、CoordConvolutionレイヤを含めることで、モデルの性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2025-02-06T17:36:35Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
ドライバ行動監視ネットワーク(DBMNet)は軽量のバックボーンに依存しており、カメラのビュー情報を破棄するためにアンタングルモジュールを統合する。
DBMNetは、既存のアプローチと比較して、Top-1の精度が7%向上している。
論文 参考訳(メタデータ) (2024-11-20T10:27:12Z) - Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。
従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。
提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-07T15:47:19Z) - PoseViNet: Distracted Driver Action Recognition Framework Using
Multi-View Pose Estimation and Vision Transformer [1.319058156672392]
本稿では,多視点運転者行動画像を用いた運転者の気晴らし検出手法を提案する。
提案手法は,ポーズ推定とアクション推論,すなわち PoseViNet を用いた視覚変換器ベースのフレームワークである。
PoseViNetは、難しいデータセットで97.55%の検証精度と90.92%のテスト精度を達成する。
論文 参考訳(メタデータ) (2023-12-22T10:13:10Z) - DRUformer: Enhancing the driving scene Important object detection with
driving relationship self-understanding [50.81809690183755]
交通事故はしばしば致命傷を負い、2023年まで5000万人以上の死者を出した。
従来の研究は、主に個々の参加者の重要性を評価し、それらを独立した存在として扱うものであった。
本稿では、重要な物体検出タスクを強化するために、運転シーン関連自己理解変換器(DRUformer)を紹介する。
論文 参考訳(メタデータ) (2023-11-11T07:26:47Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。