論文の概要: A Volumetric Saliency Guided Image Summarization for RGB-D Indoor Scene
Classification
- arxiv url: http://arxiv.org/abs/2401.16227v1
- Date: Fri, 19 Jan 2024 09:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-04 05:36:02.701753
- Title: A Volumetric Saliency Guided Image Summarization for RGB-D Indoor Scene
Classification
- Title(参考訳): RGB-D屋内シーン分類のためのボリューム・サリエンシガイド画像要約
- Authors: Preeti Meena, Himanshu Kumar, Sandeep Yadav
- Abstract要約: Saliencyは、画像の要約を生成するのに最もよく使われるテクニックである。
本稿では,室内シーン分類のためのボリューム・サリエンシ誘導フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.4000567392487127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image summary, an abridged version of the original visual content, can be
used to represent the scene. Thus, tasks such as scene classification,
identification, indexing, etc., can be performed efficiently using the unique
summary. Saliency is the most commonly used technique for generating the
relevant image summary. However, the definition of saliency is subjective in
nature and depends upon the application. Existing saliency detection methods
using RGB-D data mainly focus on color, texture, and depth features.
Consequently, the generated summary contains either foreground objects or
non-stationary objects. However, applications such as scene identification
require stationary characteristics of the scene, unlike state-of-the-art
methods. This paper proposes a novel volumetric saliency-guided framework for
indoor scene classification. The results highlight the efficacy of the proposed
method.
- Abstract(参考訳): オリジナルのビジュアルコンテンツの短縮版である画像要約は、シーンを表現するために使用することができる。
これにより、一意な要約を用いてシーン分類、識別、索引付け等のタスクを効率的に行うことができる。
Saliencyは、画像の要約を生成する最も一般的なテクニックである。
しかし、正当性の定義は本質的に主観的であり、適用に依存している。
RGB-Dデータを用いた既存の塩分検出法は主に色、テクスチャ、深度の特徴に焦点を当てている。
その結果、生成された要約は、前景オブジェクトまたは非静止オブジェクトのいずれかを含む。
しかし、シーン識別のような応用は、最先端の手法とは異なり、シーンの静止特性を必要とする。
本稿では,室内シーン分類のためのボリューム・サリエンシ誘導フレームワークを提案する。
その結果,提案手法の有効性が示された。
関連論文リスト
- Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文 参考訳(メタデータ) (2024-01-30T10:04:49Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Inter-object Discriminative Graph Modeling for Indoor Scene Recognition [5.712940060321454]
本稿では,シーン特徴表現を強化するために,識別対象知識を活用することを提案する。
画素レベルのシーン特徴をノードとして定義する識別グラフネットワーク(DGN)を構築する。
提案した IODP と DGN を用いて, 広く使用されているシーンデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2023-11-10T08:07:16Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Identity-Aware Hand Mesh Estimation and Personalization from RGB Images [19.821827000403992]
モノクロRGB画像から3Dハンドメッシュを再構築する作業は,注目度が高まっている。
ほとんどの最先端のメソッドは匿名でこのタスクに取り組みます。
対象の固有形状パラメータに代表される識別情報を組み込むことのできる,アイデンティティを考慮した手メッシュ推定モデルを提案する。
論文 参考訳(メタデータ) (2022-09-22T07:58:40Z) - Scene Recognition with Objectness, Attribute and Category Learning [8.581276116041401]
シーン分類は、それ自体が挑戦的な研究課題として確立されている。
画像認識は、シーン認識の優れたパフォーマンスの鍵となる。
本稿では,カテゴリ埋め込みを学習し,同時にシーン特性を予測するマルチタスク属性・シーン認識ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T19:51:54Z) - Recent Advances in Scene Image Representation and Classification [1.8369974607582584]
本稿では,画像分類に広く用いられている既存のシーン画像表現手法について概説する。
我々は、その性能を質的に(例えば、出力の品質、pros/consなど)、量的に(例えば、精度)比較する。
本稿では,従来のコンピュータビジョン(CV)ベースの手法,ディープラーニング(DL)ベースの手法,検索エンジン(SE)ベースの手法について,最近のシーン画像表現手法の詳細な知見と応用について述べる。
論文 参考訳(メタデータ) (2022-06-15T07:12:23Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。