論文の概要: SALT: A Semi-automatic Labeling Tool for RGB-D Video Sequences
- arxiv url: http://arxiv.org/abs/2102.10820v1
- Date: Mon, 22 Feb 2021 08:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:08:19.552065
- Title: SALT: A Semi-automatic Labeling Tool for RGB-D Video Sequences
- Title(参考訳): SALT: RGB-Dビデオシーケンスのための半自動ラベリングツール
- Authors: Dennis Stumpf, Stephan Krau\ss, Gerd Reis, Oliver Wasenm\"uller,
Didier Stricker
- Abstract要約: SALTは、RGB-Dビデオシーケンスに注釈を付け、完全な6自由度(DoF)オブジェクトポーズのための3Dバウンディングボックスを生成するツールである。
当社のパイプラインは、データセット作成プロセスを容易にするために、組み込みのプリプロセッシング機能も提供します。
- 参考スコア(独自算出の注目度): 11.215334675788952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large labeled data sets are one of the essential basics of modern deep
learning techniques. Therefore, there is an increasing need for tools that
allow to label large amounts of data as intuitively as possible. In this paper,
we introduce SALT, a tool to semi-automatically annotate RGB-D video sequences
to generate 3D bounding boxes for full six Degrees of Freedom (DoF) object
poses, as well as pixel-level instance segmentation masks for both RGB and
depth. Besides bounding box propagation through various interpolation
techniques, as well as algorithmically guided instance segmentation, our
pipeline also provides built-in pre-processing functionalities to facilitate
the data set creation process. By making full use of SALT, annotation time can
be reduced by a factor of up to 33.95 for bounding box creation and 8.55 for
RGB segmentation without compromising the quality of the automatically
generated ground truth.
- Abstract(参考訳): 大規模なラベル付きデータセットは、現代のディープラーニング技術の重要な基礎の1つです。
そのため、大量のデータを可能な限り直感的にラベル付けできるツールの必要性が高まっています。
本稿では,全6自由度(DoF)オブジェクトポーズ用の3次元バウンディングボックスを生成するためのRGB-Dビデオシーケンスを半自動アノテートするツールであるSALTと,RGBと深度の両方の画素レベルのインスタンスセグメンテーションマスクを紹介する。
さまざまな補間技術やアルゴリズムで導いたインスタンスセグメンテーションによる境界ボックスの伝搬に加えて、私たちのパイプラインはデータセット生成プロセスを容易にするためのプリプロセス機能も備えています。
SALTをフル活用することで、バウンディングボックス作成では33.95まで、RGBセグメンテーションでは8.55まで、自動生成されたグラウンド真実の品質を損なうことなく、アノテーション時間を短縮できます。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。
実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-16T16:49:59Z) - Self-Supervised Learning of Object Segmentation from Unlabeled RGB-D
Videos [11.40098981859033]
本研究では,RGB画像中の剛体物体をセグメント化するための自己教師型学習システムを提案する。
提案するパイプラインは、静的オブジェクトのラベル付けされていないRGB-Dビデオに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-04-09T23:13:39Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。