論文の概要: Towards Robust Semantic Segmentation of Accident Scenes via Multi-Source
Mixed Sampling and Meta-Learning
- arxiv url: http://arxiv.org/abs/2203.10395v1
- Date: Sat, 19 Mar 2022 21:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 19:28:31.197169
- Title: Towards Robust Semantic Segmentation of Accident Scenes via Multi-Source
Mixed Sampling and Meta-Learning
- Title(参考訳): 多元混合サンプリングとメタラーニングによる事故シーンのロバストなセグメンテーションに向けて
- Authors: Xinyu Luo, Jiaming Zhang, Kailun Yang, Alina Roitberg, Kunyu Peng,
Rainer Stiefelhagen
- Abstract要約: 本稿では,セグメント化変換器を極端に事故現場に一般化するための多元的メタラーニング・アン教師付きドメイン適応フレームワークを提案する。
DADA-segベンチマークではmIoUスコアが46.97%に達し,従来の最先端モデルよりも7.50%以上向上した。
- 参考スコア(独自算出の注目度): 29.74171323437029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous vehicles utilize urban scene segmentation to understand the real
world like a human and react accordingly. Semantic segmentation of normal
scenes has experienced a remarkable rise in accuracy on conventional
benchmarks. However, a significant portion of real-life accidents features
abnormal scenes, such as those with object deformations, overturns, and
unexpected traffic behaviors. Since even small mis-segmentation of driving
scenes can lead to serious threats to human lives, the robustness of such
models in accident scenarios is an extremely important factor in ensuring
safety of intelligent transportation systems.
In this paper, we propose a Multi-source Meta-learning Unsupervised Domain
Adaptation (MMUDA) framework, to improve the generalization of segmentation
transformers to extreme accident scenes. In MMUDA, we make use of Multi-Domain
Mixed Sampling to augment the images of multiple-source domains (normal scenes)
with the target data appearances (abnormal scenes). To train our model, we
intertwine and study a meta-learning strategy in the multi-source setting for
robustifying the segmentation results. We further enhance the segmentation
backbone (SegFormer) with a HybridASPP decoder design, featuring large window
attention spatial pyramid pooling and strip pooling, to efficiently aggregate
long-range contextual dependencies. Our approach achieves a mIoU score of
46.97% on the DADA-seg benchmark, surpassing the previous state-of-the-art
model by more than 7.50%. Code will be made publicly available at
https://github.com/xinyu-laura/MMUDA.
- Abstract(参考訳): 自動運転車は都市シーンのセグメンテーションを利用して、現実世界を人間のように理解し、それに応じて反応する。
通常のシーンのセマンティクスセグメンテーションは、従来のベンチマークの精度が著しく向上している。
しかし、実際の事故の大部分は、物体の変形、転覆、予期しない交通行動などの異常な場面を特徴としている。
運転シーンの小さな誤解でさえ、人間の生活に深刻な脅威をもたらす可能性があるため、事故シナリオにおけるモデルの堅牢性は、インテリジェントな輸送システムの安全性を確保する上で非常に重要な要素である。
本稿では,セグメント化変換器の極端な事故現場への一般化を改善するために,MMUDA(Multi-source Meta-learning Unsupervised Domain Adaptation)フレームワークを提案する。
MMUDAでは、Multi-Domain Mixed Smplingを用いて、複数のソースドメイン(通常シーン)の画像にターゲットデータ(異常シーン)を付加する。
モデルをトレーニングするために、セグメント化結果を堅牢化するためのマルチソース設定において、メタ学習戦略を介入し、研究する。
我々はさらに、空間ピラミッドプールとストリッププールを備えたHybridASPPデコーダ設計でセグメント化バックボーン(SegFormer)を強化し、長距離コンテキスト依存を効率的に集約する。
DADA-segベンチマークではmIoUスコアが46.97%に達し,従来の最先端モデルよりも7.50%以上向上した。
コードはhttps://github.com/xinyu-laura/MMUDA.comで公開される。
関連論文リスト
- JointMotion: Joint Self-Supervision for Joint Motion Prediction [10.44846560021422]
JointMotionは、自動運転車における関節運動予測のための自己教師付き事前訓練手法である。
提案手法は,Wayformer,HPTR,Scene Transformerの各モデルにおける最終変位誤差を,それぞれ3%,8%,12%削減する。
論文 参考訳(メタデータ) (2024-03-08T17:54:38Z) - MS-Net: A Multi-Path Sparse Model for Motion Prediction in Multi-Scenes [1.4451387915783602]
マルチシーンネットワーク(Multi-Scenes Network、別名MS-Net)は、進化過程によって訓練されたマルチパススパースモデルである。
MS-Netは、推論段階でパラメータのサブセットを選択的に活性化し、各シーンの予測結果を生成する。
実験の結果,MS-Netは既存の歩行者行動予測データセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-01T08:32:12Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - MCENET: Multi-Context Encoder Network for Homogeneous Agent Trajectory
Prediction in Mixed Traffic [35.22312783822563]
都市混合交通圏における軌道予測は多くのインテリジェント交通システムにとって重要である。
本稿では,過去と未来の両方のシーンコンテキストを符号化して学習するマルチコンテキストネットワーク(MCENET)を提案する。
推定時間において,対象エージェントの過去の状況と動作情報と潜伏変数のサンプリングを組み合わせ,複数の現実的軌跡を予測する。
論文 参考訳(メタデータ) (2020-02-14T11:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。