論文の概要: Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis
- arxiv url: http://arxiv.org/abs/2408.01682v1
- Date: Sat, 3 Aug 2024 06:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:00:53.299420
- Title: Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis
- Title(参考訳): 運転行動解析における長周期推論のための多フレーム視覚言語モデル
- Authors: Hiroshi Takato, Hiroshi Tsutsui, Komei Soda, Hidetaka Kamigaito,
- Abstract要約: 我々は,新しいマルチモーダル・インストラクション・チューニング・データセットとドライバ・コーチング・システムを構築した。
我々のデータセットは、言語モデルが様々な危険な運転シナリオで視覚的な指示を学習することを可能にする。
本モデルは,ダッシュカム搭載車両における運転行動の包括的範囲を把握し,路面カメラおよび運転者向けRGBカメラ映像の訓練を行う。
- 参考スコア(独自算出の注目度): 13.569854626496314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying risky driving behavior in real-world situations is essential for the safety of both drivers and pedestrians. However, integrating natural language models in this field remains relatively untapped. To address this, we created a novel multi-modal instruction tuning dataset and driver coaching inference system. Our primary use case is dashcam-based coaching for commercial drivers. The North American Dashcam Market is expected to register a CAGR of 15.4 percent from 2022 to 2027. Our dataset enables language models to learn visual instructions across various risky driving scenarios, emphasizing detailed reasoning crucial for effective driver coaching and managerial comprehension. Our model is trained on road-facing and driver-facing RGB camera footage, capturing the comprehensive scope of driving behavior in vehicles equipped with dashcams.
- Abstract(参考訳): 現実の状況下での危険運転行動の特定は、ドライバーと歩行者の両方の安全に不可欠である。
しかし、この分野における自然言語モデルの統合は、いまだに未解決のままである。
そこで我々は,新しいマルチモーダル・インストラクション・チューニング・データセットとドライバ・コーチング・推論システムを構築した。
私たちの主なユースケースは、商用ドライバのためのダッシュカムベースのコーチングです。
北米のダッシュカム市場は、2022年から2027年までのCAGRを15.4%登録する予定である。
我々のデータセットは、言語モデルで様々な危険な運転シナリオの視覚的指示を学習し、効果的な運転指導と管理の理解に不可欠な詳細な推論を強調します。
本モデルは,ダッシュカム搭載車両における運転行動の包括的範囲を把握し,路面カメラおよび運転者向けRGBカメラ映像の訓練を行う。
関連論文リスト
- Human-Based Risk Model for Improved Driver Support in Interactive Driving Scenarios [0.0]
運転支援の改善にドライバ情報を利用する人間型リスクモデルを提案する。
大規模なシミュレーションでは,新たな人為的リスクモデルが早期の警告時間を実現し,警告エラーの低減を図っている。
論文 参考訳(メタデータ) (2024-10-03T02:10:13Z) - Towards Infusing Auxiliary Knowledge for Distracted Driver Detection [11.816566371802802]
引き離された運転は世界中の道路事故の主要な原因である。
シーン内のエンティティ間の意味的関係とドライバのポーズの構造的構成に関する補助的知識を注入することで,運転者検出(DDD)の新たな手法であるKiD3を提案する。
具体的には、シーングラフを統合した統合フレームワークを構築し、ドライバが映像フレーム内の視覚的手がかりと情報を合成し、ドライバの行動の全体像を作成する。
論文 参考訳(メタデータ) (2024-08-29T15:28:42Z) - Looking Inside Out: Anticipating Driver Intent From Videos [20.501288763809036]
ドライバーの意図は、ドライバーが危険な操作を試みている場合に車両を取り巻く警告など、道路の安全を改善するために利用することができる。
本研究では,キャビン内および外部カメラデータを利用して,将来の運転行動を予測するためのSOTA(State-of-the-art)性能を改善する手法を提案する。
我々のモデルは、既存のアプローチよりも正確により早くドライバーの操縦を予測し、精度は87.5%、平均予測時間は4.35秒前である。
論文 参考訳(メタデータ) (2023-12-03T16:24:50Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - Markov Switching Model for Driver Behavior Prediction: Use cases on
Smartphones [4.576379639081977]
スマートフォンを用いた低コストデータ収集ソリューションによって検証された運転行動切替モデルを提案する。
提案モデルでは,短時間の運転行動を予測するために,実データを用いて検証を行う。
論文 参考訳(メタデータ) (2021-08-29T09:54:05Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - The Multimodal Driver Monitoring Database: A Naturalistic Corpus to
Study Driver Attention [44.94118128276982]
スマートな車両は、人間の運転者の行動や行動を監視して、必要な時に警告や介入を行う必要がある。
深層学習とコンピュータビジョンの最近の進歩は、人間の行動や活動を監視する上で大きな約束を示しています。
運転関連タスクの予測に高性能を提供するモデルのトレーニングには、ドメイン内の膨大なデータが必要である。
論文 参考訳(メタデータ) (2020-12-23T16:37:17Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z) - Driver Intention Anticipation Based on In-Cabin and Driving Scene
Monitoring [52.557003792696484]
本稿では,車内映像と交通シーン映像の両方に基づいて運転者の意図を検出する枠組みを提案する。
本フレームワークは,83.98%,F1スコア84.3%の精度で予測を行う。
論文 参考訳(メタデータ) (2020-06-20T11:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。