Fugu-MT 論文翻訳(概要): VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection

論文の概要: VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection

arxiv url: http://arxiv.org/abs/2108.08482v1
Date: Thu, 19 Aug 2021 03:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-21 01:49:12.343949
Title: VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection
Title（参考訳）: VIL-100:ビデオインスタンスレーン検出のための新しいデータセットとベースラインモデル
Authors: Yujun Zhang, Lei Zhu, Wei Feng, Huazhu Fu, Mingqian Wang, Qingxia Li, Cheng Li and Song Wang
Abstract要約: ビデオインスタンスレーン検出データセットを新たに収集し、合計1万フレームの100本のビデオを含む。各ビデオのフレームはすべて、高品質なインスタンスレベルのレーンアノテーションに手動で注釈付けされる。ビデオインスタンスレーン検出のための新しいベースラインモデルであるマルチレベルメモリ集約ネットワーク(MMA-Net)を提案する。
参考スコア（独自算出の注目度）: 43.11580440256568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lane detection plays a key role in autonomous driving. While car cameras always take streaming videos on the way, current lane detection works mainly focus on individual images (frames) by ignoring dynamics along the video. In this work, we collect a new video instance lane detection (VIL-100) dataset, which contains 100 videos with in total 10,000 frames, acquired from different real traffic scenarios. All the frames in each video are manually annotated to a high-quality instance-level lane annotation, and a set of frame-level and video-level metrics are included for quantitative performance evaluation. Moreover, we propose a new baseline model, named multi-level memory aggregation network (MMA-Net), for video instance lane detection. In our approach, the representation of current frame is enhanced by attentively aggregating both local and global memory features from other frames. Experiments on the new collected dataset show that the proposed MMA-Net outperforms state-of-the-art lane detection methods and video object segmentation methods. We release our dataset and code at https://github.com/yujun0-0/MMA-Net.
Abstract（参考訳）: レーン検出は自動運転において重要な役割を果たす。車のカメラは常にストリーミングビデオを撮影するが、現在の車線検出は主にビデオのダイナミックさを無視して個々の画像(フレーム)に焦点を当てている。本研究では、異なる実トラフィックシナリオから取得した、合計1万フレームの100のビデオを含むビデオインスタンスレーン検出(VIL-100)データセットを新たに収集する。各ビデオのフレームはすべて、高品質のインスタンスレベルのレーンアノテーションに手動で注釈付けされ、フレームレベルのメトリクスとビデオレベルのメトリクスのセットが量的パフォーマンス評価に含まれている。さらに,ビデオインスタンスレーン検出のためのベースラインモデルとして,マルチレベルメモリ集約ネットワーク(MMA-Net)を提案する。提案手法では,ローカルメモリとグローバルメモリの両方を他のフレームから積極的に集約することにより,現在のフレームの表現を向上する。新たに収集したデータセットの実験により,提案したMMA-Netは,最先端の車線検出法やビデオオブジェクトセグメンテーション法よりも優れていた。私たちはデータセットとコードをhttps://github.com/yujun0-0/MMA-Netでリリースします。

関連論文リスト

LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation [87.71768494466959]
LaneTCAは個々のビデオフレームをブリッジし、時間的コンテキストを効果的に集約する方法を探る。本研究では,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。 2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
論文参考訳（メタデータ） (2024-08-25T14:46:29Z)
ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文参考訳（メタデータ） (2024-06-18T12:09:43Z)
Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。 MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-06-06T16:20:07Z)
Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。 DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文参考訳（メタデータ） (2023-07-03T17:58:01Z)
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。 LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文参考訳（メタデータ） (2023-05-03T08:48:45Z)
Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文参考訳（メタデータ） (2022-11-16T18:50:14Z)
Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-30T10:01:01Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。