論文の概要: VIL-100: A New Dataset and A Baseline Model for Video Instance Lane
Detection
- arxiv url: http://arxiv.org/abs/2108.08482v1
- Date: Thu, 19 Aug 2021 03:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-21 01:49:12.343949
- Title: VIL-100: A New Dataset and A Baseline Model for Video Instance Lane
Detection
- Title(参考訳): VIL-100:ビデオインスタンスレーン検出のための新しいデータセットとベースラインモデル
- Authors: Yujun Zhang, Lei Zhu, Wei Feng, Huazhu Fu, Mingqian Wang, Qingxia Li,
Cheng Li and Song Wang
- Abstract要約: ビデオインスタンスレーン検出データセットを新たに収集し、合計1万フレームの100本のビデオを含む。
各ビデオのフレームはすべて、高品質なインスタンスレベルのレーンアノテーションに手動で注釈付けされる。
ビデオインスタンスレーン検出のための新しいベースラインモデルであるマルチレベルメモリ集約ネットワーク(MMA-Net)を提案する。
- 参考スコア(独自算出の注目度): 43.11580440256568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lane detection plays a key role in autonomous driving. While car cameras
always take streaming videos on the way, current lane detection works mainly
focus on individual images (frames) by ignoring dynamics along the video. In
this work, we collect a new video instance lane detection (VIL-100) dataset,
which contains 100 videos with in total 10,000 frames, acquired from different
real traffic scenarios. All the frames in each video are manually annotated to
a high-quality instance-level lane annotation, and a set of frame-level and
video-level metrics are included for quantitative performance evaluation.
Moreover, we propose a new baseline model, named multi-level memory aggregation
network (MMA-Net), for video instance lane detection. In our approach, the
representation of current frame is enhanced by attentively aggregating both
local and global memory features from other frames. Experiments on the new
collected dataset show that the proposed MMA-Net outperforms state-of-the-art
lane detection methods and video object segmentation methods. We release our
dataset and code at https://github.com/yujun0-0/MMA-Net.
- Abstract(参考訳): レーン検出は自動運転において重要な役割を果たす。
車のカメラは常にストリーミングビデオを撮影するが、現在の車線検出は主にビデオのダイナミックさを無視して個々の画像(フレーム)に焦点を当てている。
本研究では、異なる実トラフィックシナリオから取得した、合計1万フレームの100のビデオを含むビデオインスタンスレーン検出(VIL-100)データセットを新たに収集する。
各ビデオのフレームはすべて、高品質のインスタンスレベルのレーンアノテーションに手動で注釈付けされ、フレームレベルのメトリクスとビデオレベルのメトリクスのセットが量的パフォーマンス評価に含まれている。
さらに,ビデオインスタンスレーン検出のためのベースラインモデルとして,マルチレベルメモリ集約ネットワーク(MMA-Net)を提案する。
提案手法では,ローカルメモリとグローバルメモリの両方を他のフレームから積極的に集約することにより,現在のフレームの表現を向上する。
新たに収集したデータセットの実験により,提案したMMA-Netは,最先端の車線検出法やビデオオブジェクトセグメンテーション法よりも優れていた。
私たちはデータセットとコードをhttps://github.com/yujun0-0/MMA-Netでリリースします。
関連論文リスト
- Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。