論文の概要: Salient Object Detection in Traffic Scene through the TSOD10K Dataset
- arxiv url: http://arxiv.org/abs/2503.16910v1
- Date: Fri, 21 Mar 2025 07:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:53.082098
- Title: Salient Object Detection in Traffic Scene through the TSOD10K Dataset
- Title(参考訳): TSOD10Kデータセットによる交通現場の高次物体検出
- Authors: Yu Qiu, Yuhang Sun, Jie Mei, Lin Xiao, Jing Xu,
- Abstract要約: Traffic Salient Object Detection (TSOD) は、セマンティック(衝突リスクなど)と視覚的サリエンスを組み合わせることで、安全を運転する上で重要なオブジェクトを分割することを目的としている。
本研究は,インテリジェントトランスポートシステムにおける安全対応型サリエンシ分析の基盤を初めて確立するものである。
- 参考スコア(独自算出の注目度): 22.615252113004402
- License:
- Abstract: Traffic Salient Object Detection (TSOD) aims to segment the objects critical to driving safety by combining semantic (e.g., collision risks) and visual saliency. Unlike SOD in natural scene images (NSI-SOD), which prioritizes visually distinctive regions, TSOD emphasizes the objects that demand immediate driver attention due to their semantic impact, even with low visual contrast. This dual criterion, i.e., bridging perception and contextual risk, re-defines saliency for autonomous and assisted driving systems. To address the lack of task-specific benchmarks, we collect the first large-scale TSOD dataset with pixel-wise saliency annotations, named TSOD10K. TSOD10K covers the diverse object categories in various real-world traffic scenes under various challenging weather/illumination variations (e.g., fog, snowstorms, low-contrast, and low-light). Methodologically, we propose a Mamba-based TSOD model, termed Tramba. Considering the challenge of distinguishing inconspicuous visual information from complex traffic backgrounds, Tramba introduces a novel Dual-Frequency Visual State Space module equipped with shifted window partitioning and dilated scanning to enhance the perception of fine details and global structure by hierarchically decomposing high/low-frequency components. To emphasize critical regions in traffic scenes, we propose a traffic-oriented Helix 2D-Selective-Scan (Helix-SS2D) mechanism that injects driving attention priors while effectively capturing global multi-direction spatial dependencies. We establish a comprehensive benchmark by evaluating Tramba and 22 existing NSI-SOD models on TSOD10K, demonstrating Tramba's superiority. Our research establishes the first foundation for safety-aware saliency analysis in intelligent transportation systems.
- Abstract(参考訳): Traffic Salient Object Detection (TSOD) は、セマンティック(衝突リスク、衝突リスクなど)と視覚的サリエンスを組み合わせることで、安全を運転する上で重要なオブジェクトを分割することを目的としている。
自然景観画像におけるSOD(NSI-SOD)とは異なり、TSODは視覚的コントラストが低い場合でも、その意味的な影響によりドライバーの注意を即時に求める物体を強調している。
この二重基準、すなわち、認知のブリッジングとコンテキストリスクは、自律運転システムと補助運転システムのサリエンシを再定義する。
タスク固有のベンチマークの欠如に対処するため,TSOD10Kという画素単位のサリエンシアノテーションを備えた,最初の大規模TSODデータセットを収集した。
TSOD10Kは、様々な気象・照度の変化(例えば、霧、吹雪、低コントラスト、低照度)の下で、様々な現実世界の交通シーンにおける多様な対象カテゴリをカバーしている。
提案手法は,マンバをベースとしたTSODモデルであるTrambaを提案する。
複雑なトラフィックの背景から不明瞭な視覚情報を識別することの難しさを考慮して、Tramba氏は、高/低周波成分を階層的に分解することで、細部と大域構造の知覚を高めるために、シフトウィンドウ分割と拡張走査を備えた新しいデュアル周波数ビジュアル・ステート・スペース・モジュールを導入した。
交通シーンにおける重要な領域を強調するため,トラフィック指向のHelix 2D-Selective-Scan(Helix-SS2D)機構を提案する。
TSOD10K上で、Trambaと既存のNSI-SODモデル22を総合的に評価し、Trambaの優位性を示す。
本研究は,インテリジェントトランスポートシステムにおける安全対応型サリエンシ分析の基盤を初めて確立するものである。
関連論文リスト
- CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - Detecting Every Object from Events [24.58024539462497]
本稿では,イベントベースの視覚において,クラスに依存しない高速なオープンワールドオブジェクト検出を実現するためのアプローチとして,イベント中のすべてのオブジェクトの検出(DEOE)を提案する。
私たちのコードはhttps://github.com/Hatins/DEOEで公開されています。
論文 参考訳(メタデータ) (2024-04-08T08:20:53Z) - Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。
従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。
提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-07T15:47:19Z) - SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial
System Applications [0.0]
多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。
本稿では,リアルタイムな状況下での騒音に対応するために,頑健なオブジェクト追跡アーキテクチャを提案する。
本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T13:50:38Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Visibility Guided NMS: Efficient Boosting of Amodal Object Detection in
Crowded Traffic Scenes [7.998326245039892]
現代の2Dオブジェクト検出フレームワークは、NMS(Non-Maximum-Suppression)を使用して洗練されたオブジェクトごとの複数のバウンディングボックスを予測し、1つのバウンディングボックスを除くすべてのバウンディングボックスを抑圧する。
我々の新しいVisibility Guided NMS(vg-NMS)は、ピクセルベースとアモーダルオブジェクト検出パラダイムの両方を活用し、特に計算オーバーヘッドの少ない高いオブジェクトに対して検出性能を向上させる。
我々は、KITTI、VIPER、Synscapesデータセットを用いてvg-NMSを評価し、現在の最先端NMSよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-15T17:03:23Z) - SCRDet++: Detecting Small, Cluttered and Rotated Objects via
Instance-Level Feature Denoising and Rotation Loss Smoothing [131.04304632759033]
小さくて散らばった物体は実世界では一般的であり、検出は困難である。
本稿では,まず,物体検出にデノナイズするアイデアを革新的に紹介する。
機能マップ上のインスタンスレベルの記述は、小さくて散らばったオブジェクトの検出を強化するために行われる。
論文 参考訳(メタデータ) (2020-04-28T06:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。