Fugu-MT 論文翻訳(概要): Saliency Map-based Image Retrieval using Invariant Krawtchouk Moments

論文の概要: Saliency Map-based Image Retrieval using Invariant Krawtchouk Moments

arxiv url: http://arxiv.org/abs/2411.08567v1
Date: Wed, 13 Nov 2024 12:27:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.265226
Title: Saliency Map-based Image Retrieval using Invariant Krawtchouk Moments
Title（参考訳）: 不変Krawtchoukモーメントを用いた残差マップに基づく画像検索
Authors: Ashkan Nejad, Mohammad Reza Faraji, Xiaojun Qi,
Abstract要約: 本稿では,不変なKrawtchouk モーメント (SM-IKM) を用いたサリエンシマップに基づく画像検索手法を提案する。 Caltech 101やWangなどの公開データセットに対するXtensive experimentは、SM-IKMが最近の最先端の検索方法より優れていることを実証している。
参考スコア（独自算出の注目度）: 3.2771631221674333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the widespread adoption of digital devices equipped with cameras and the rapid development of Internet technology, numerous content-based image retrieval systems and novel image feature extraction techniques have emerged in recent years. This paper introduces a saliency map-based image retrieval approach using invariant Krawtchouk moments (SM-IKM) to enhance retrieval speed and accuracy. The proposed method applies a global contrast-based salient region detection algorithm to create a saliency map that effectively isolates the foreground from the background. It then combines multiple orders of invariant Krawtchouk moments (IKM) with local binary patterns (LBPs) and color histograms to comprehensively represent the foreground and background. Additionally, it incorporates LBPs derived from the saliency map to improve discriminative power, facilitating more precise image differentiation. A bag-of-visual-words (BoVW) model is employed to generate a codebook for classification and discrimination. By using compact IKMs in the BoVW framework and integrating a range of region-based feature-including color histograms, LBPs, and saliency map-enhanced LBPs, our proposed SM-IKM achieves efficient and accurate image retrieval. xtensive experiments on publicly available datasets, such as Caltech 101 and Wang, demonstrate that SM-IKM outperforms recent state-of-the-art retrieval methods. The source code for SM-IKM is available at github.com/arnejad/SMIKM.
Abstract（参考訳）: 近年,カメラを備えたデジタルデバイスの普及とインターネット技術の急速な発展により,コンテンツベースの画像検索システムや新しい画像特徴抽出技術が数多く登場している。本稿では,不変なKrawtchouk モーメント (SM-IKM) を用いたサリエンシマップに基づく画像検索手法を提案する。提案手法は,グローバルコントラストに基づく局所領域検出アルゴリズムを用いて,前景を背景から効果的に分離するサリエンシマップを作成する。次に、複数の不変Krawtchoukモーメント(IKM)と局所二分パターン(LBP)とカラーヒストグラムを組み合わせて、前景と背景を包括的に表現する。さらに、Saliency Mapから派生したLPPを組み込んで識別力を向上させ、より正確な画像の分化を促進する。分類と識別のためのコードブックを生成するために、Bad-of-visual-words(BoVW)モデルが使用される。提案するSM-IKMは,BoVWフレームワークにコンパクトなIKMを用い,色ヒストグラム,LBP,サリエンシマップ強化LPPを多種多様な領域に集積することにより,効率的かつ正確な画像検索を実現する。 Caltech 101やWangなどの公開データセットに関するxtensiveな実験は、SM-IKMが最近の最先端の検索方法より優れていることを実証している。 SM-IKMのソースコードはgithub.com/arnejad/SMIKMで入手できる。

関連論文リスト

Image Forgery Localization via Guided Noise and Multi-Scale Feature Aggregation [13.610095493539397]
IFLのためのガイド付きマルチスケール機能集約ネットワークを提案する。異なる種類の偽音下でのノイズ特徴を学習するために,有効なノイズ抽出モジュールを開発する。そして、動的畳み込みを用いて複数のスケールでRGBと雑音機能を適応的に集約する特徴集約モジュール(FAM)を設計する。最後に,Atrous Residual Pyramid Module (ARPM)を提案する。
論文参考訳（メタデータ） (2024-11-17T11:50:09Z)
OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances [11.085165252259042]
OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
論文参考訳（メタデータ） (2024-11-13T14:59:00Z)
Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。 PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文参考訳（メタデータ） (2024-09-04T13:05:00Z)
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文参考訳（メタデータ） (2024-07-22T14:24:56Z)
Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
CP-SLAM: Collaborative Neural Point-based SLAM System [54.916578456416204]
本稿では,RGB-D画像シーケンスを用いた協調型暗黙的ニューラルローカライゼーションとマッピング(SLAM)システムを提案する。これらすべてのモジュールを統一的なフレームワークで実現するために,ニューラルポイントに基づく新しい3次元シーン表現を提案する。協調的な暗黙的SLAMに対して,一貫性と協調性を改善するために,分散分散型学習戦略を提案する。
論文参考訳（メタデータ） (2023-11-14T09:17:15Z)
Incremental Multimodal Surface Mapping via Self-Organizing Gaussian Mixture Models [1.0878040851638]
本文では,環境を連続確率モデルとして表わすインクリメンタルなマルチモーダル表面マッピング手法について述べる。この研究で使用される戦略は環境を表現するためにガウス混合モデル(GMM)を用いる。このギャップを埋めるために,高速GMMサブマップ抽出のための空間ハッシュマップを導入する。
論文参考訳（メタデータ） (2023-09-19T19:49:03Z)
Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。ストレージの要求が大きいため、一般ユーザからは広く採用されていない。本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-21T06:59:07Z)
R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文参考訳（メタデータ） (2023-06-08T17:56:46Z)
Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文参考訳（メタデータ） (2023-05-18T08:09:20Z)
MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。 MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文参考訳（メタデータ） (2022-11-06T14:58:21Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。