論文の概要: SalM$2$: An Extremely Lightweight Saliency Mamba Model for Real-Time Cognitive Awareness of Driver Attention
- arxiv url: http://arxiv.org/abs/2502.16214v1
- Date: Sat, 22 Feb 2025 12:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.03784
- Title: SalM$2$: An Extremely Lightweight Saliency Mamba Model for Real-Time Cognitive Awareness of Driver Attention
- Title(参考訳): SalM$2$:ドライバー注意のリアルタイム認知認識のための超軽量サリエンシ・マンバモデル
- Authors: Chunyu Zhao, Wentao Mu, Xian Zhou, Wenbo Liu, Fei Yan, Tao Deng,
- Abstract要約: 本稿では,最新のMambaフレームワークをベースとしたリアルタイムなSalliency Mambaネットワークを提案する。
図1に示すように、私たちのモデルは、SOTAのパフォーマンスを維持しながら、非常に少ないパラメータを使用します。
- 参考スコア(独自算出の注目度): 3.158717871421344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver attention recognition in driving scenarios is a popular direction in traffic scene perception technology. It aims to understand human driver attention to focus on specific targets/objects in the driving scene. However, traffic scenes contain not only a large amount of visual information but also semantic information related to driving tasks. Existing methods lack attention to the actual semantic information present in driving scenes. Additionally, the traffic scene is a complex and dynamic process that requires constant attention to objects related to the current driving task. Existing models, influenced by their foundational frameworks, tend to have large parameter counts and complex structures. Therefore, this paper proposes a real-time saliency Mamba network based on the latest Mamba framework. As shown in Figure 1, our model uses very few parameters (0.08M, only 0.09~11.16% of other models), while maintaining SOTA performance or achieving over 98% of the SOTA model's performance.
- Abstract(参考訳): 運転シナリオにおける運転注意認識は、交通シーン認識技術において一般的な方向である。
運転シーンの特定の目標や対象に注目するために、人間の運転注意を理解することを目的としている。
しかし、交通シーンには大量の視覚情報だけでなく、運転タスクに関連する意味情報も含まれている。
既存の方法は、運転シーンに存在する実際の意味情報に注意を払わない。
さらに、トラフィックシーンは複雑で動的なプロセスであり、現在の運転タスクに関連するオブジェクトに対して常に注意が必要である。
既存のモデルは、基礎となるフレームワークの影響を受け、大きなパラメータ数と複雑な構造を持つ傾向がある。
そこで本稿では,最新のMambaフレームワークをベースとしたリアルタイム・サリエンシ・ネットワークを提案する。
図1に示すように、我々のモデルはごく少数のパラメータ(0.08M、他のモデルの0.09〜11.16%)を使用しながら、SOTA性能を維持したり、SOTAモデルの98%以上の性能を達成する。
関連論文リスト
- Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving [16.94669292450282]
本稿では,自動運転におけるシーン理解のための象徴的基礎モデル(FM)の学習手法であるFM4SUを提案する。
知識グラフ(KG)を活用して、道路トポロジや交通規則、交通参加者間の複雑な相互作用といったドメイン知識とともに、感覚観察をキャプチャする。
その結果、細調整されたモデルでは全てのタスクにおいて精度が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-24T14:38:25Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Snapshot: Towards Application-centered Models for Pedestrian Trajectory Prediction in Urban Traffic Environments [9.025558624315817]
本稿では,交通環境における歩行者を対象とするArgoverse 2に基づくベンチマークを提案する。
Snapshotは、モジュラーでフィードフォワード型ニューラルネットワークで、現在の最先端技術より優れています。
Snapshotをモジュラー自動運転ソフトウェアスタックに統合することで、現実の応用性を示す。
論文 参考訳(メタデータ) (2024-09-03T15:15:49Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - PoseViNet: Distracted Driver Action Recognition Framework Using
Multi-View Pose Estimation and Vision Transformer [1.319058156672392]
本稿では,多視点運転者行動画像を用いた運転者の気晴らし検出手法を提案する。
提案手法は,ポーズ推定とアクション推論,すなわち PoseViNet を用いた視覚変換器ベースのフレームワークである。
PoseViNetは、難しいデータセットで97.55%の検証精度と90.92%のテスト精度を達成する。
論文 参考訳(メタデータ) (2023-12-22T10:13:10Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Scaling Vision-based End-to-End Driving with Multi-View Attention
Learning [7.14967754486195]
本稿では,人間にインスパイアされたHFOVを誘導バイアスとして用いて高分解能画像を処理し,適切な注意機構を組み込むことにより,CILRSを改善するCIL++を提案する。
我々は,車載信号のみによって制御され,条件付き模倣学習によって訓練された強力な視覚ベースの純粋エンドツーエンド駆動ベースラインとして,CILRSをCIL++に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-02-07T02:14:45Z) - Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping
and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。
このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文 参考訳(メタデータ) (2022-04-12T03:57:01Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Interaction Graphs for Object Importance Estimation in On-road Driving
Videos [9.344790309080283]
ドライバーのリアルタイム意思決定における各オブジェクトの重要性を推定する学習は、人間の運転行動をよりよく理解するのに役立ちます。
相互作用グラフを用いたオブジェクト重要度推定のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-12T22:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。