論文の概要: Evaluation of Multimodal Semantic Segmentation using RGB-D Data
- arxiv url: http://arxiv.org/abs/2103.16758v1
- Date: Wed, 31 Mar 2021 01:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:47:24.184793
- Title: Evaluation of Multimodal Semantic Segmentation using RGB-D Data
- Title(参考訳): rgb-dデータを用いたマルチモーダル意味セグメンテーションの評価
- Authors: Jiesi Hu, Ganning Zhao, Suya You, C. C. Jay Kuo
- Abstract要約: AI駆動型マルチモーダルシーン認識など、さまざまな関連技術やソリューションを探求し、評価しています。
多様な都市景観と地形シーンからなる4つの大きなデータセットを用いている。
また,未知のオブジェクトの検出と認識を改善するために,マルチデータセット学習の新たな戦略を開発する。
- 参考スコア(独自算出の注目度): 27.877734292570967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to develop stable, accurate, and robust semantic scene
understanding methods for wide-area scene perception and understanding,
especially in challenging outdoor environments. To achieve this, we are
exploring and evaluating a range of related technology and solutions, including
AI-driven multimodal scene perception, fusion, processing, and understanding.
This work reports our efforts on the evaluation of a state-of-the-art approach
for semantic segmentation with multiple RGB and depth sensing data. We employ
four large datasets composed of diverse urban and terrain scenes and design
various experimental methods and metrics. In addition, we also develop new
strategies of multi-datasets learning to improve the detection and recognition
of unseen objects. Extensive experiments, implementations, and results are
reported in the paper.
- Abstract(参考訳): 我々の目標は、特に挑戦的な屋外環境において、広範囲のシーン認識と理解のための安定的で正確で堅牢なシーン理解手法を開発することである。
これを実現するため、私たちは、ai駆動のマルチモーダルシーン知覚、融合、処理、理解を含む、関連する技術とソリューションを探求し、評価しています。
本稿では,複数のRGBデータと深度センシングデータを用いたセマンティックセグメンテーションのための最先端手法の評価について報告する。
都市と地形の多様なシーンからなる4つの大規模なデータセットを使用し、様々な実験手法とメトリクスを設計する。
さらに,未知のオブジェクトの検出と認識を改善するために,マルチデータセット学習の新たな戦略を開発する。
広範な実験、実装、結果が論文で報告されている。
関連論文リスト
- Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - D2SLAM: Semantic visual SLAM based on the influence of Depth for Dynamic
environments [0.483420384410068]
一般化とシーン認識に欠ける動的要素を決定するための新しい手法を提案する。
我々は,幾何学的および意味的モジュールからの推定精度を向上するシーン深度情報を用いる。
その結果, 動的環境における正確な位置推定とマッピングを行う上で, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-16T22:13:59Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Learning Multi-modal Information for Robust Light Field Depth Estimation [32.64928379844675]
focalスタックからの既存の学習に基づく深さ推定手法は、デフォーカスのぼやけのため、準最適性能に繋がる。
堅牢な光界深度推定のためのマルチモーダル学習法を提案する。
本手法は,2つの光場データセットにおいて,既存の代表手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-04-13T06:51:27Z) - A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。
本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。
我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文 参考訳(メタデータ) (2020-07-08T16:49:25Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。