論文の概要: ASK: Adaptively Selecting Key Local Features for RGB-D Scene Recognition
- arxiv url: http://arxiv.org/abs/2110.07703v1
- Date: Thu, 14 Oct 2021 20:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 08:13:50.709421
- Title: ASK: Adaptively Selecting Key Local Features for RGB-D Scene Recognition
- Title(参考訳): ASK:RGB-Dシーン認識のためのキーローカル特徴の選択
- Authors: Zhitong Xiong, Yuan Yuan and Qi Wang
- Abstract要約: 既存の手法には、空間的変化の大きいシーン画像の分類に制限がある。
重要な局所特徴を適応的に選択するRGB-Dシーン認識のための効率的なフレームワークを提案する。
このフレームワークは、パブリックなRGB-Dシーン認識データセット上で最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 30.936418722945373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor scene images usually contain scattered objects and various scene
layouts, which make RGB-D scene classification a challenging task. Existing
methods still have limitations for classifying scene images with great spatial
variability. Thus, how to extract local patch-level features effectively using
only image labels is still an open problem for RGB-D scene recognition. In this
paper, we propose an efficient framework for RGB-D scene recognition, which
adaptively selects important local features to capture the great spatial
variability of scene images. Specifically, we design a differentiable local
feature selection (DLFS) module, which can extract the appropriate number of
key local scenerelated features. Discriminative local theme-level and
object-level representations can be selected with the DLFS module from the
spatially-correlated multi-modal RGB-D features. We take advantage of the
correlation between RGB and depth modalities to provide more cues for selecting
local features. To ensure that discriminative local features are selected, the
variational mutual information maximization loss is proposed. Additionally, the
DLFS module can be easily extended to select local features of different
scales. By concatenating the local-orderless and global structured multi-modal
features, the proposed framework can achieve state-of-the-art performance on
public RGB-D scene recognition datasets.
- Abstract(参考訳): 屋内のシーンイメージは通常、散在するオブジェクトと様々なシーンレイアウトを含んでおり、RGB-Dシーンの分類が困難な課題となっている。
既存の手法には、空間的変動が大きいシーン画像の分類に制限がある。
したがって,RGB-Dシーン認識において,画像ラベルのみを用いて局所的なパッチレベルの特徴を効果的に抽出する方法は,依然として未解決の問題である。
本稿では,シーン画像の空間的変動を捉えるために,重要な局所特徴を適応的に選択する,rgb-dシーン認識のための効率的なフレームワークを提案する。
具体的には,所望の局所的特徴選択(DLFS)モジュールを設計し,重要な局所的特徴の適切な個数を抽出する。
空間的に相関したマルチモーダルRGB-D特徴から、DLFSモジュールで識別的局所テーマレベルとオブジェクトレベルの表現を選択することができる。
我々はRGBと奥行きモードの相関を利用して局所的な特徴を選択するための手がかりを提供する。
識別的局所特徴が選択されることを保証するため、変分的相互情報最大化損失を提案する。
さらにDLFSモジュールは簡単に拡張でき、異なるスケールのローカル機能を選択することができる。
ローカルオーダーレスおよびグローバル構造化マルチモーダル機能を結合することにより、提案フレームワークはパブリックなrgb-dシーン認識データセットで最先端のパフォーマンスを実現することができる。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - iColoriT: Towards Propagating Local Hint to the Right Region in
Interactive Colorization by Leveraging Vision Transformer [29.426206281291755]
iColoriT は,ユーザヒントを関連領域に伝達する新しい点対話型カラー化視覚変換器である。
提案手法は,デコーダアーキテクチャを置き換える効率的なアップサンプリング技術であるピクセルシャッフルを利用して,リアルタイムに画像のカラー化を行う。
論文 参考訳(メタデータ) (2022-07-14T11:40:32Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Color-related Local Binary Pattern: A Learned Local Descriptor for Color
Image Recognition [22.53368259571432]
ローカル・バイナリ・パターン(LBP)は一種のローカル特徴としてイメージ認識の単純さ、容易な実装および強い識別力を示しました。
本稿では,カラー画像認識のために,デコードされたlppから支配的なパターンを学習する色関連局所二分パターン(clbp)を提案する。
論文 参考訳(メタデータ) (2020-12-11T05:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。