論文の概要: IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks
- arxiv url: http://arxiv.org/abs/2501.01685v1
- Date: Fri, 03 Jan 2025 08:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:39.576834
- Title: IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks
- Title(参考訳): IAM: RGB-Dインスタンスのセグメンテーションを新たなベンチマークで強化
- Authors: Aecheon Jung, Soyun Choi, Junhong Min, Sungeun Hong,
- Abstract要約: RGB-Dセグメンテーションは、RGBのみの手法よりもリッチなシーン理解を約束する。
インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的少ない。
インスタンスレベルで区別された3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。
本稿では,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 4.3266254914862445
- License:
- Abstract: Image segmentation is a vital task for providing human assistance and enhancing autonomy in our daily lives. In particular, RGB-D segmentation-leveraging both visual and depth cues-has attracted increasing attention as it promises richer scene understanding than RGB-only methods. However, most existing efforts have primarily focused on semantic segmentation and thus leave a critical gap. There is a relative scarcity of instance-level RGB-D segmentation datasets, which restricts current methods to broad category distinctions rather than fully capturing the fine-grained details required for recognizing individual objects. To bridge this gap, we introduce three RGB-D instance segmentation benchmarks, distinguished at the instance level. These datasets are versatile, supporting a wide range of applications from indoor navigation to robotic manipulation. In addition, we present an extensive evaluation of various baseline models on these benchmarks. This comprehensive analysis identifies both their strengths and shortcomings, guiding future work toward more robust, generalizable solutions. Finally, we propose a simple yet effective method for RGB-D data integration. Extensive evaluations affirm the effectiveness of our approach, offering a robust framework for advancing toward more nuanced scene understanding.
- Abstract(参考訳): イメージセグメンテーションは、人間の援助と日常生活における自律性向上に不可欠である。
特に、RGB-Dセグメンテーション平均化は、RGBのみの手法よりもリッチなシーン理解を約束するので、注目されている。
しかし、既存のほとんどの取り組みはセマンティックセグメンテーションに重点を置いており、重要なギャップを残している。
インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的不足しており、個々のオブジェクトを認識するのに必要な細かな詳細を十分に把握するのではなく、現在のメソッドを広いカテゴリの区別に制限している。
このギャップを埋めるために、インスタンスレベルで区別される3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。
これらのデータセットは汎用的であり、屋内ナビゲーションからロボット操作まで幅広い用途をサポートする。
さらに、これらのベンチマークに基づいて、様々なベースラインモデルの広範な評価を行う。
この包括的な分析は、それらの強みと欠点の両方を特定し、より堅牢で一般化可能なソリューションに向けた将来の取り組みを導く。
最後に,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
広範に評価することで,よりニュアンスなシーン理解に向けて進むための堅牢な枠組みを提供する。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - HS3-Bench: A Benchmark and Strong Baseline for Hyperspectral Semantic Segmentation in Driving Scenarios [3.7498611358320733]
駆動シナリオにおけるセマンティックセグメンテーションの進捗を測定するための標準ベンチマークはない。
本稿では,HyperSpectral Semanticベンチマーク(HS3-Bench)を提案する。
3つの駆動シナリオデータセットからの注釈付きハイパースペクトル画像を組み合わせて、標準化されたメトリクス、実装、評価プロトコルを提供する。
論文 参考訳(メタデータ) (2024-09-17T14:00:49Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis [16.5390740005143]
NVIDIARTを用いて高次に最適化可能な,効率的かつ堅牢なRGB-Dセグメンテーション手法を提案する。
RGB-Dセグメンテーションは、RGB画像のみを処理するよりも優れており、ネットワークアーキテクチャが慎重に設計されている場合、リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-11-13T15:17:31Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。