論文の概要: SalM$^{2}$: An Extremely Lightweight Saliency Mamba Model for Real-Time Cognitive Awareness of Driver Attention
- arxiv url: http://arxiv.org/abs/2502.16214v2
- Date: Fri, 28 Feb 2025 03:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:39:09.896765
- Title: SalM$^{2}$: An Extremely Lightweight Saliency Mamba Model for Real-Time Cognitive Awareness of Driver Attention
- Title(参考訳): SalM$^{2}$:ドライバー注意のリアルタイム認知認識のための超軽量サリエンシ・マンバモデル
- Authors: Chunyu Zhao, Wentao Mu, Xian Zhou, Wenbo Liu, Fei Yan, Tao Deng,
- Abstract要約: 本稿では,最新のMambaフレームワークをベースとしたリアルタイムなSalliency Mambaネットワークを提案する。
図1に示すように、私たちのモデルは、SOTAのパフォーマンスを維持しながら、非常に少ないパラメータを使用します。
- 参考スコア(独自算出の注目度): 3.158717871421344
- License:
- Abstract: Driver attention recognition in driving scenarios is a popular direction in traffic scene perception technology. It aims to understand human driver attention to focus on specific targets/objects in the driving scene. However, traffic scenes contain not only a large amount of visual information but also semantic information related to driving tasks. Existing methods lack attention to the actual semantic information present in driving scenes. Additionally, the traffic scene is a complex and dynamic process that requires constant attention to objects related to the current driving task. Existing models, influenced by their foundational frameworks, tend to have large parameter counts and complex structures. Therefore, this paper proposes a real-time saliency Mamba network based on the latest Mamba framework. As shown in Figure 1, our model uses very few parameters (0.08M, only 0.09~11.16% of other models), while maintaining SOTA performance or achieving over 98% of the SOTA model's performance.
- Abstract(参考訳): 運転シナリオにおける運転注意認識は、交通シーン認識技術において一般的な方向である。
運転シーンの特定の目標や対象に注目するために、人間の運転注意を理解することを目的としている。
しかし、交通シーンには大量の視覚情報だけでなく、運転タスクに関連する意味情報も含まれている。
既存の方法は、運転シーンに存在する実際の意味情報に注意を払わない。
さらに、トラフィックシーンは複雑で動的なプロセスであり、現在の運転タスクに関連するオブジェクトに対して常に注意が必要である。
既存のモデルは、基礎となるフレームワークの影響を受け、大きなパラメータ数と複雑な構造を持つ傾向がある。
そこで本稿では,最新のMambaフレームワークをベースとしたリアルタイム・サリエンシ・ネットワークを提案する。
図1に示すように、我々のモデルはごく少数のパラメータ(0.08M、他のモデルの0.09〜11.16%)を使用しながら、SOTA性能を維持したり、SOTAモデルの98%以上の性能を達成する。
関連論文リスト
- Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Snapshot: Towards Application-centered Models for Pedestrian Trajectory Prediction in Urban Traffic Environments [9.025558624315817]
本稿では,交通環境における歩行者を対象とするArgoverse 2に基づくベンチマークを提案する。
Snapshotは、モジュラーでフィードフォワード型ニューラルネットワークで、現在の最先端技術より優れています。
Snapshotをモジュラー自動運転ソフトウェアスタックに統合することで、現実の応用性を示す。
論文 参考訳(メタデータ) (2024-09-03T15:15:49Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - PoseViNet: Distracted Driver Action Recognition Framework Using
Multi-View Pose Estimation and Vision Transformer [1.319058156672392]
本稿では,多視点運転者行動画像を用いた運転者の気晴らし検出手法を提案する。
提案手法は,ポーズ推定とアクション推論,すなわち PoseViNet を用いた視覚変換器ベースのフレームワークである。
PoseViNetは、難しいデータセットで97.55%の検証精度と90.92%のテスト精度を達成する。
論文 参考訳(メタデータ) (2023-12-22T10:13:10Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping
and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。
このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文 参考訳(メタデータ) (2022-04-12T03:57:01Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Interaction Graphs for Object Importance Estimation in On-road Driving
Videos [9.344790309080283]
ドライバーのリアルタイム意思決定における各オブジェクトの重要性を推定する学習は、人間の運転行動をよりよく理解するのに役立ちます。
相互作用グラフを用いたオブジェクト重要度推定のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-12T22:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。