論文の概要: Lidar Annotation Is All You Need
- arxiv url: http://arxiv.org/abs/2311.04777v1
- Date: Wed, 8 Nov 2023 15:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:25:23.637489
- Title: Lidar Annotation Is All You Need
- Title(参考訳): Lidarのアノテーションは必要なだけ
- Authors: Dinar Sharafutdinov, Stanislav Kuskov, Saian Protasov, Alexey Voropaev
- Abstract要約: 本稿では,畳み込みニューラルネットワークを用いたマルチセンサ構成による画像分割の効率向上を目的とする。
当社のアプローチにおける重要な革新は、点雲からの粗い接地トラスマスクに対処する、マスク付き損失である。
ベンチマークデータセットに対するアプローチの実験的検証は、高品質の画像セグメンテーションモデルに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, computer vision has transformed fields such as medical
imaging, object recognition, and geospatial analytics. One of the fundamental
tasks in computer vision is semantic image segmentation, which is vital for
precise object delineation. Autonomous driving represents one of the key areas
where computer vision algorithms are applied. The task of road surface
segmentation is crucial in self-driving systems, but it requires a
labor-intensive annotation process in several data domains. The work described
in this paper aims to improve the efficiency of image segmentation using a
convolutional neural network in a multi-sensor setup. This approach leverages
lidar (Light Detection and Ranging) annotations to directly train image
segmentation models on RGB images. Lidar supplements the images by emitting
laser pulses and measuring reflections to provide depth information. However,
lidar's sparse point clouds often create difficulties for accurate object
segmentation. Segmentation of point clouds requires time-consuming preliminary
data preparation and a large amount of computational resources. The key
innovation of our approach is the masked loss, addressing sparse ground-truth
masks from point clouds. By calculating loss exclusively where lidar points
exist, the model learns road segmentation on images by using lidar points as
ground truth. This approach allows for blending of different ground-truth data
types during model training. Experimental validation of the approach on
benchmark datasets shows comparable performance to a high-quality image
segmentation model. Incorporating lidar reduces the load on annotations and
enables training of image-segmentation models without loss of segmentation
quality. The methodology is tested on diverse datasets, both publicly available
and proprietary. The strengths and weaknesses of the proposed method are also
discussed in the paper.
- Abstract(参考訳): 近年、コンピュータビジョンは医療画像、物体認識、地理空間分析などの分野に変化をもたらした。
コンピュータビジョンにおける基本的なタスクの1つはセマンティック画像分割(semantic image segmentation)である。
自律運転はコンピュータビジョンアルゴリズムを適用する重要な領域の1つである。
道路面のセグメンテーションの課題は、自動運転システムにおいて重要であるが、いくつかのデータ領域において労働集約的なアノテーションプロセスが必要である。
本稿では,畳み込みニューラルネットワークを用いたマルチセンサ構成による画像分割の効率向上を目的としている。
このアプローチでは、ライダー(Light Detection and Ranging)アノテーションを使用して、RGBイメージ上で画像セグメンテーションモデルを直接トレーニングする。
lidarはレーザーパルスを照射し、反射を測定することで深度情報を提供する。
しかし、lidarのスパースポイント雲は、しばしば正確なオブジェクトセグメンテーションの困難を生じさせる。
ポイントクラウドのセグメンテーションには、時間を要する予備データの準備と大量の計算リソースが必要である。
我々のアプローチの鍵となる革新は、点雲からの粗い地道マスクに対処するマスク損失である。
ライダーポイントが存在する場所のみの損失を計算することにより、ライダーポイントを基底真実として画像上の道路セグメンテーションを学習する。
このアプローチでは、モデルトレーニング中に異なる地上データ型をブレンドすることができる。
ベンチマークデータセットに対するアプローチの実験的検証は、高品質の画像セグメンテーションモデルに匹敵する性能を示す。
ライダーを組み込むことでアノテーションの負荷を低減し、セグメンテーション品質を損なうことなく画像分割モデルのトレーニングを可能にする。
この方法論は、公開およびプロプライエタリな、さまざまなデータセット上でテストされる。
本論文では,提案手法の長所と短所について述べる。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - A Novel Upsampling and Context Convolution for Image Semantic
Segmentation [0.966840768820136]
最近のセマンティックセグメンテーションの方法は、しばしば深い畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を採用している。
ネットワーク内の画像の空間情報を効率的に保存するために,ガイドフィルタに基づく高密度アップサンプリング畳み込み法を提案する。
ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。
論文 参考訳(メタデータ) (2021-03-20T06:16:42Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Deep Learning of Unified Region, Edge, and Contour Models for Automated
Image Segmentation [2.0305676256390934]
畳み込みニューラルネットワーク(CNN)は,自動セグメンテーションパイプラインの設計において注目を集めている。
CNNベースのモデルは、生の画像データから抽象的な特徴を学ぶには十分だが、それらのパフォーマンスは、適切なトレーニングデータセットの可用性とサイズに依存している。
本稿では,これらの問題に対処する新しい手法を考案し,完全自動セマンティックセマンティックセグメンテーションのための堅牢な表現学習フレームワークを構築した。
論文 参考訳(メタデータ) (2020-06-23T02:54:55Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z) - Evolution of Image Segmentation using Deep Convolutional Neural Network:
A Survey [0.0]
我々はCNNに基づくセマンティックとインスタンスセグメンテーションの両方の進化を垣間見る。
我々は、最先端のパン光学セグメンテーションモデルを垣間見せた。
論文 参考訳(メタデータ) (2020-01-13T06:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。