論文の概要: Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance
- arxiv url: http://arxiv.org/abs/2603.07570v1
- Date: Sun, 08 Mar 2026 10:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.817085
- Title: Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance
- Title(参考訳): マルチタスク適応学習と多次元特徴誘導によるRGB-Dシーンの効率的な理解
- Authors: Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang,
- Abstract要約: 本稿では,様々なタスクをこなす効率的なRGB-Dシーン理解モデルを提案する。
提案モデルでは,RGBと深度入力の両方からの冗長情報を効果的に活用する拡張核融合エンコーダが組み込まれている。
NYUv2、SUN RGB-D、Cityscapesのデータセットの実験は、我々のアプローチがセグメント化精度と処理速度の両方で既存の手法より優れていることを示した。
- 参考スコア(独自算出の注目度): 11.641727506165688
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene understanding plays a critical role in enabling intelligence and autonomy in robotic systems. Traditional approaches often face challenges, including occlusions, ambiguous boundaries, and the inability to adapt attention based on task-specific requirements and sample variations. To address these limitations, this paper presents an efficient RGB-D scene understanding model that performs a range of tasks, including semantic segmentation, instance segmentation, orientation estimation, panoptic segmentation, and scene classification. The proposed model incorporates an enhanced fusion encoder, which effectively leverages redundant information from both RGB and depth inputs. For semantic segmentation, we introduce normalized focus channel layers and a context feature interaction layer, designed to mitigate issues such as shallow feature misguidance and insufficient local-global feature representation. The instance segmentation task benefits from a non-bottleneck 1D structure, which achieves superior contour representation with fewer parameters. Additionally, we propose a multi-task adaptive loss function that dynamically adjusts the learning strategy for different tasks based on scene variations. Extensive experiments on the NYUv2, SUN RGB-D, and Cityscapes datasets demonstrate that our approach outperforms existing methods in both segmentation accuracy and processing speed.
- Abstract(参考訳): ロボットシステムにおけるインテリジェンスと自律性を実現する上で、シーン理解は重要な役割を担っている。
従来のアプローチでは、オクルージョンや曖昧な境界、タスク固有の要件やサンプルのバリエーションに基づいて注意を適応できないといった課題に直面しています。
これらの制約に対処するため,本論文では,セマンティックセグメンテーション,インスタンスセグメンテーション,配向推定,パノプティックセグメンテーション,シーン分類など,様々なタスクをこなす効率的なRGB-Dシーン理解モデルを提案する。
提案モデルでは,RGBと深度入力の両方からの冗長情報を効果的に活用する拡張核融合エンコーダが組み込まれている。
セマンティックセグメンテーションでは,機能不足や局所的特徴表現の不足といった問題を緩和するために,正規化されたフォーカスチャネル層とコンテキスト特徴相互作用層を導入する。
インスタンスセグメンテーションタスクは、より少ないパラメータで優れた輪郭表現を実現する非ブートネック1D構造から恩恵を受ける。
さらに,シーンの変動に基づいて異なるタスクに対する学習戦略を動的に調整するマルチタスク適応型損失関数を提案する。
NYUv2、SUN RGB-D、Cityscapesのデータセットに対する大規模な実験は、我々のアプローチがセグメント化精度と処理速度の両方で既存の手法より優れていることを示している。
関連論文リスト
- TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。
具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文 参考訳(メタデータ) (2025-06-27T07:34:28Z) - IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks [4.3266254914862445]
RGB-Dセグメンテーションは、RGBのみの手法よりもリッチなシーン理解を約束する。
インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的少ない。
インスタンスレベルで区別された3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。
本稿では,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T08:03:24Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments [13.274695420192884]
RGB-Dシーン解析(EMSANet)のための効率的なマルチタスク手法を提案する。
パフォーマンスを低下させることなく、モバイルプラットフォーム上で1つのニューラルネットワークを使用して、すべてのタスクをリアルタイムで達成できることを示します。
我々は,NYUv2 と SUNRGB-D の屋内シーン解析のための総合的なマルチタスク設定の結果を初めて提示する。
論文 参考訳(メタデータ) (2022-07-10T20:03:38Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。