論文の概要: Instance Segmentation with Cross-Modal Consistency
- arxiv url: http://arxiv.org/abs/2210.08113v1
- Date: Fri, 14 Oct 2022 21:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:02:43.253008
- Title: Instance Segmentation with Cross-Modal Consistency
- Title(参考訳): クロスモーダル一貫性を持つインスタンスセグメンテーション
- Authors: Alex Zihao Zhu, Vincent Casser, Reza Mahjourian, Henrik Kretzschmar,
S\"oren Pirk
- Abstract要約: 本稿では,複数センサモードの測定を協調的に活用するインスタンスセグメンテーションへの新しいアプローチを提案する。
本手法は, センサ・モダリティと時間領域の両面において, 現場の点に対してコントラスト学習を適用した。
この定式化は、視点の変化に不変な埋め込みを学ぶことをモデルに促すことを実証する。
- 参考スコア(独自算出の注目度): 13.524441194366544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting object instances is a key task in machine perception, with
safety-critical applications in robotics and autonomous driving. We introduce a
novel approach to instance segmentation that jointly leverages measurements
from multiple sensor modalities, such as cameras and LiDAR. Our method learns
to predict embeddings for each pixel or point that give rise to a dense
segmentation of the scene. Specifically, our technique applies contrastive
learning to points in the scene both across sensor modalities and the temporal
domain. We demonstrate that this formulation encourages the models to learn
embeddings that are invariant to viewpoint variations and consistent across
sensor modalities. We further demonstrate that the embeddings are stable over
time as objects move around the scene. This not only provides stable instance
masks, but can also provide valuable signals to downstream tasks, such as
object tracking. We evaluate our method on the Cityscapes and KITTI-360
datasets. We further conduct a number of ablation studies, demonstrating
benefits when applying additional inputs for the contrastive loss.
- Abstract(参考訳): オブジェクトインスタンスのセグメンテーションは、ロボット工学や自動運転における安全クリティカルな応用を含む、機械知覚における重要なタスクである。
本稿では,カメラやライダーなどの複数のセンサモダリティから測定値を活用する新しいインスタンスセグメンテーション手法を提案する。
本手法は,シーンの濃密なセグメンテーションを生じさせる各画素や点への埋め込みを予測することを学ぶ。
具体的には,センサモダリティと時間領域をまたいだコントラスト学習をシーン内の点に適用する。
この定式化は,センサのモダリティをまたいで,視点の変動に不変で一貫性のある埋め込みをモデルに学習させることを実証する。
さらに、オブジェクトがシーンを動き回るにつれて、埋め込みが安定していることが示されます。
これは安定したインスタンスマスクを提供するだけでなく、オブジェクト追跡のような下流タスクに貴重な信号を提供することもできる。
本手法は都市景観とkitti-360データセットを用いて評価する。
さらに多くのアブレーション研究を行い,コントラスト損失に対する追加入力を適用する際の利点を示す。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Simultaneous Clutter Detection and Semantic Segmentation of Moving
Objects for Automotive Radar Data [12.96486891333286]
レーダセンサは、自動運転車の環境認識システムにおいて重要な部分である。
レーダーポイント雲の処理における最初のステップの1つは、しばしば乱れの検出である。
もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。
我々は,RadarScenesデータセットのセマンティックセマンティックセグメンテーションにおいて,我々の設定が極めて効果的であることを示し,既存のネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T11:29:38Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - SegmentMeIfYouCan: A Benchmark for Anomaly Segmentation [111.61261419566908]
ディープニューラルネットワーク(DNN)は通常、閉集合のセマンティッククラスで訓練される。
未発見のオブジェクトを扱うには不備だ。
このような物体の検出と局在化は、自動運転の認識などの安全クリティカルなアプリケーションに不可欠です。
論文 参考訳(メタデータ) (2021-04-30T07:58:19Z) - 4D Panoptic LiDAR Segmentation [27.677435778317054]
意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。
マルチオブジェクトトラッキングのベンチマークの最近の進歩に触発され、タスクのセマンティクスとポイントツーインスタンスの関連を分離する新しい評価指標を採用することを提案する。
論文 参考訳(メタデータ) (2021-02-24T18:56:16Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Deep Soft Procrustes for Markerless Volumetric Sensor Alignment [81.13055566952221]
本研究では、より堅牢なマルチセンサ空間アライメントを実現するために、マーカーレスデータ駆動対応推定を改善する。
我々は、幾何学的制約を終末的に典型的なセグメンテーションベースモデルに組み込み、対象のポーズ推定タスクと中間密な分類タスクをブリッジする。
実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,またキャリブレーション構造のポーズ変動にも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-03-23T10:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。