論文の概要: Dynamic Graph Neural Network with Adaptive Features Selection for RGB-D Based Indoor Scene Recognition
- arxiv url: http://arxiv.org/abs/2604.00372v1
- Date: Wed, 01 Apr 2026 01:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.786384
- Title: Dynamic Graph Neural Network with Adaptive Features Selection for RGB-D Based Indoor Scene Recognition
- Title(参考訳): RGB-Dに基づく屋内シーン認識のための適応特徴選択を用いた動的グラフニューラルネットワーク
- Authors: Qiong Liu, Ruofei Xiong, Xingzhen Chen, Muyao Peng, You Yang,
- Abstract要約: 色と深さの多様性、すなわちRGB-Dは、近年の屋内シーン認識研究において非常に重要である。
従来の研究では、両者の局所的な特徴が認識精度の向上に不可欠であることが示されている。
本稿では,適応ノード選択機構を用いた動的グラフモデルを提案する。
SUN RGB-DやNYU Depth v2などの公開データセットで実験が行われる。
- 参考スコア(独自算出の注目度): 13.302545956172446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modality of color and depth, i.e., RGB-D, is of great importance in recent research of indoor scene recognition. In this kind of data representation, depth map is able to describe the 3D structure of scenes and geometric relations among objects. Previous works showed that local features of both modalities are vital for promotion of recognition accuracy. However, the problem of adaptive selection and effective exploitation on these key local features remains open in this field. In this paper, a dynamic graph model is proposed with adaptive node selection mechanism to solve the above problem. In this model, a dynamic graph is built up to model the relations among objects and scene, and a method of adaptive node selection is proposed to take key local features from both modalities of RGB and depth for graph modeling. After that, these nodes are grouped by three different levels, representing near or far relations among objects. Moreover, the graph model is updated dynamically according to attention weights. Finally, the updated and optimized features of RGB and depth modalities are fused together for indoor scene recognition. Experiments are performed on public datasets including SUN RGB-D and NYU Depth v2. Extensive results demonstrate that our method has superior performance when comparing to state-of-the-arts methods, and show that the proposed method is able to exploit crucial local features from both modalities of RGB and depth.
- Abstract(参考訳): 色と深さの多様性、すなわちRGB-Dは、近年の屋内シーン認識研究において非常に重要である。
このようなデータ表現では、深度マップはシーンの3次元構造とオブジェクト間の幾何学的関係を記述することができる。
従来の研究では、両者の局所的な特徴が認識精度の向上に不可欠であることが示されている。
しかし、これらの重要な局所的特徴に対する適応的選択と効果的な利用の問題は、この分野では未解決のままである。
本稿では,この問題を解決するために適応ノード選択機構を用いた動的グラフモデルを提案する。
このモデルでは、オブジェクトとシーンの関係をモデル化するために動的グラフを構築し、RGBのモーダル性とグラフモデリングのための深さの両方から重要な局所的特徴を抽出する適応ノード選択法を提案する。
その後、これらのノードは3つの異なるレベルにグループ化され、オブジェクト間の近距離関係を表す。
さらに、注意重みに応じてグラフモデルを動的に更新する。
最後に、RGBの更新および最適化された特徴と深度変調を融合して室内シーン認識を行う。
SUN RGB-DやNYU Depth v2などの公開データセットで実験が行われる。
その結果,本手法は最先端手法と比較して優れた性能を示し,提案手法はRGBと深さの両面から重要な局所的特徴を活用できることが示唆された。
関連論文リスト
- Demo-Pose: Depth-Monocular Modality Fusion For Object Pose Estimation [5.466547563815996]
本稿では,RGB-D入力からのカテゴリレベルの9-DoFポーズ推定の課題をCADモデルに頼らずに解決する。
深度に基づくグラフ畳み込み表現とセマンティック特徴を融合したハイブリッドアーキテクチャであるDeMo-Poseを提案する。
提案手法は,オブジェクトカテゴリ間のリアルタイム推論を実現し,最先端の手法を大幅に改善する。
論文 参考訳(メタデータ) (2026-03-29T05:58:04Z) - RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection [76.1829298714382]
本稿では,RGB画像と熱画像の相違点に着目した。
RGB-T有向物体検出のための領域誘導選択最適化ネットワークを提案する。
我々は,RGB-Tデータセットに関する広範な実験を行い,提案したRSONetが27種類の最先端SOD手法と競合する性能を発揮することを示した。
論文 参考訳(メタデータ) (2026-03-13T06:01:17Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。