論文の概要: LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation
- arxiv url: http://arxiv.org/abs/2408.13852v1
- Date: Sun, 25 Aug 2024 14:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 17:40:08.908961
- Title: LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation
- Title(参考訳): LaneTCA:テンポラルコンテキストアグリゲーションによるビデオレーン検出の強化
- Authors: Keyi Zhou, Li Li, Wengang Zhou, Yonghui Wang, Hao Feng, Houqiang Li,
- Abstract要約: LaneTCAは個々のビデオフレームをブリッジし、時間的コンテキストを効果的に集約する方法を探る。
本研究では,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。
2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
- 参考スコア(独自算出の注目度): 87.71768494466959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video lane detection, there are rich temporal contexts among successive frames, which is under-explored in existing lane detectors. In this work, we propose LaneTCA to bridge the individual video frames and explore how to effectively aggregate the temporal context. Technically, we develop an accumulative attention module and an adjacent attention module to abstract the long-term and short-term temporal context, respectively. The accumulative attention module continuously accumulates visual information during the journey of a vehicle, while the adjacent attention module propagates this lane information from the previous frame to the current frame. The two modules are meticulously designed based on the transformer architecture. Finally, these long-short context features are fused with the current frame features to predict the lane lines in the current frame. Extensive quantitative and qualitative experiments are conducted on two prevalent benchmark datasets. The results demonstrate the effectiveness of our method, achieving several new state-of-the-art records. The codes and models are available at https://github.com/Alex-1337/LaneTCA
- Abstract(参考訳): ビデオレーン検出では、既存のレーン検出器で探索されていない連続したフレームの間に、豊富な時間的文脈が存在する。
本研究では,個々の映像フレームをブリッジするLaneTCAを提案し,時間的文脈を効果的に集約する方法を探る。
技術的には,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。
積算アテンションモジュールは、車両の走行中に連続的に視覚情報を蓄積し、隣接するアテンションモジュールは、前フレームから現在のフレームへのこのレーン情報を伝搬する。
2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
最後に、これらの長短コンテキスト特徴は、現在のフレームの特徴と融合して、現在のフレーム内のレーン線を予測する。
大規模な定量的および定性的な実験は、2つの有望なベンチマークデータセットで実施される。
その結果,本手法の有効性が示され,いくつかの新記録が得られた。
コードとモデルはhttps://github.com/Alex-1337/LaneTCAで公開されている。
関連論文リスト
- STF: Spatio-Temporal Fusion Module for Improving Video Object Detection [7.213855322671065]
ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
論文 参考訳(メタデータ) (2024-02-16T15:19:39Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Unidirectional Video Denoising by Mimicking Backward Recurrent Modules
with Look-ahead Forward Ones [72.68740880786312]
双方向リカレントネットワーク (BiRNN) は、いくつかのビデオ復元作業において魅力的な性能を示した。
BiRNNは本質的にオフラインである。最後のフレームから現在のフレームへ伝播するために、後方リカレントモジュールを使用するからだ。
本稿では,一方向ビデオ復調のための前方および前方再帰モジュールからなる新しいリカレントネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-12T05:33:15Z) - Laneformer: Object-aware Row-Column Transformers for Lane Detection [96.62919884511287]
Laneformerは、自動運転における車線検出に適したトランスフォーマーベースのアーキテクチャである。
様々な視覚タスクにおけるトランスフォーマーエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は新しいエンドツーエンドのLaneformerアーキテクチャの設計を進める。
論文 参考訳(メタデータ) (2022-03-18T10:14:35Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - A Hybrid Spatial-temporal Deep Learning Architecture for Lane Detection [1.653688760901944]
本研究では,ハイブリッド型空間時空間シーケンス対1深層学習アーキテクチャを提案する。
提案モデルでは、挑戦的な運転シーンを効果的に処理し、最先端の手法よりも大きなマージンで性能を向上することができる。
論文 参考訳(メタデータ) (2021-10-05T15:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。