論文の概要: OMR: Occlusion-Aware Memory-Based Refinement for Video Lane Detection
- arxiv url: http://arxiv.org/abs/2408.07486v1
- Date: Wed, 14 Aug 2024 12:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:34:28.366620
- Title: OMR: Occlusion-Aware Memory-Based Refinement for Video Lane Detection
- Title(参考訳): OMR:Occlusion-Aware Memory-based Refinement for Video Lane Detection
- Authors: Dongkwon Jin, Chang-Su Kim,
- Abstract要約: 本稿では,ビデオレーン検出のための新しいアルゴリズムを提案する。
まず、現在のフレームの特徴マップを抽出し、レーンを含む障害物に対する潜時マスクを検出する。
そこで我々は,OMR(Occlusion-aware memory-based refinement)モジュールを開発した。
実験の結果,提案アルゴリズムはビデオレーンデータセット上で既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.781869063637387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel algorithm for video lane detection is proposed in this paper. First, we extract a feature map for a current frame and detect a latent mask for obstacles occluding lanes. Then, we enhance the feature map by developing an occlusion-aware memory-based refinement (OMR) module. It takes the obstacle mask and feature map from the current frame, previous output, and memory information as input, and processes them recursively in a video. Moreover, we apply a novel data augmentation scheme for training the OMR module effectively. Experimental results show that the proposed algorithm outperforms existing techniques on video lane datasets. Our codes are available at https://github.com/dongkwonjin/OMR.
- Abstract(参考訳): 本稿では,ビデオレーン検出のための新しいアルゴリズムを提案する。
まず、現在のフレームの特徴マップを抽出し、レーンを含む障害物に対する潜時マスクを検出する。
そこで我々は,OMR(Occlusion-aware memory-based refinement)モジュールを開発した。
障害物マスクと特徴マップを現在のフレームから取り出し、以前の出力とメモリ情報を入力として、ビデオ内で再帰的に処理する。
さらに,OMRモジュールを効果的に訓練するための新しいデータ拡張手法を適用した。
実験の結果,提案アルゴリズムはビデオレーンデータセット上で既存の手法よりも優れていた。
私たちのコードはhttps://github.com/dongkwonjin/OMR.comで公開されています。
関連論文リスト
- LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation [87.71768494466959]
LaneTCAは個々のビデオフレームをブリッジし、時間的コンテキストを効果的に集約する方法を探る。
本研究では,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。
2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
論文 参考訳(メタデータ) (2024-08-25T14:46:29Z) - Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention [46.74923772450212]
Vision Transformerは、低解像度のシーケンスで欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算負荷と大きなメモリフットプリントはトランスフォーマーベースのVSRモデルの展開を妨げる。
マスク内およびフレーム間アテンション(MIA-VSR)を用いた新しい特徴レベルマスキング処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T00:49:49Z) - A New Real-World Video Dataset for the Comparison of Defogging
Algorithms [45.023332704223755]
我々は, 霧の密度や地底の真実を無霧で比較するために, 新たなReal-world VIdeoデータセットを提案する。
ビデオデフォッギングアルゴリズムも言及されており、時間的冗長性を利用してアーチファクトを最小化し、フレーム間の露出変動を最小化するというキーアイデアがある。
様々なアプリケーションのためのディープラーニングにおけるTransformersアーキテクチャの成功に触発されて、ニューラルネットワークでこの種のアーキテクチャを選択し、提案したデータセットの関連性を示す。
論文 参考訳(メタデータ) (2023-10-02T09:12:39Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - RESA: Recurrent Feature-Shift Aggregator for Lane Detection [32.246537653680484]
通常のCNNを用いた予備的特徴抽出の後,車線特徴量を高めるために,Recurrent Feature-Shift Aggregator (RESA) という新しいモジュールを提案する。
RESAは、スライスされた特徴写像を集約することで、外観の弱い難解なシナリオでレーンを正確に予測することができる。
提案手法は,2つの人気のある車線検出ベンチマーク(CULaneとTusimple)の最先端結果を実現する。
論文 参考訳(メタデータ) (2020-08-31T16:37:30Z) - Heatmap-based Vanishing Point boosts Lane Detection [3.8170259685864165]
高速車線検出のためのマルチタスク・フュージョン・ネットワークアーキテクチャを提案する。
提案した融合戦略は、公開CULaneデータセットを用いて検証された。
実験結果から,本手法の車線検出精度は,最先端(SOTA)法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-07-30T17:17:00Z) - RN-VID: A Feature Fusion Architecture for Video Object Detection [10.667492516216889]
本稿では,映像オブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案する。
まず、近隣のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。
第2に、チャネルの再順序付けと1 x 1畳み込みを用いて、同じ次元の特徴写像をマージする新しいモジュールを提案する。
論文 参考訳(メタデータ) (2020-03-24T14:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。