論文の概要: Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval
- arxiv url: http://arxiv.org/abs/2308.08431v1
- Date: Wed, 16 Aug 2023 15:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:54:37.361438
- Title: Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval
- Title(参考訳): 階層を用いた画像検索のための視覚的・意味的類似性の統合
- Authors: Aishwarya Venkataramanan and Martin Laviale and C\'edric Pradalier
- Abstract要約: 視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the research in content-based image retrieval (CBIR) focus on
developing robust feature representations that can effectively retrieve
instances from a database of images that are visually similar to a query.
However, the retrieved images sometimes contain results that are not
semantically related to the query. To address this, we propose a method for
CBIR that captures both visual and semantic similarity using a visual
hierarchy. The hierarchy is constructed by merging classes with overlapping
features in the latent space of a deep neural network trained for
classification, assuming that overlapping classes share high visual and
semantic similarities. Finally, the constructed hierarchy is integrated into
the distance calculation metric for similarity search. Experiments on standard
datasets: CUB-200-2011 and CIFAR100, and a real-life use case using diatom
microscopy images show that our method achieves superior performance compared
to the existing methods on image retrieval.
- Abstract(参考訳): コンテンツベース画像検索(cbir)の研究のほとんどは、クエリに視覚的に類似した画像データベースからインスタンスを効果的に検索できる堅牢な特徴表現の開発に焦点を当てている。
しかし、検索された画像は、クエリに意味的に関連しない結果を含むことがある。
そこで本研究では,視覚階層を用いて視覚と意味の類似性を捉えるcbir手法を提案する。
階層構造は、重なり合うクラスが高い視覚的および意味的類似性を共有することを前提として、分類のために訓練されたディープニューラルネットワークの潜在空間に重なり合う特徴を持つクラスをマージすることによって構築される。
最後に、構築された階層構造を類似性探索のための距離計算メトリックに統合する。
CUB-200-2011 と CIFAR100 の標準データセット実験と珪藻顕微鏡画像を用いた実時間利用実験により,既存の画像検索法に比べて優れた性能を示した。
関連論文リスト
- Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Self-supervised Multi-view Disentanglement for Expansion of Visual
Collections [6.944742823561]
類似した画像に対する問い合わせが画像の集合から導出される設定について考察する。
ビジュアルサーチでは、類似度の測定は複数の軸に沿って行うか、スタイルや色などのビューで行うことができる。
本研究の目的は,複数のビューからの表現に対して計算された類似性を効果的に組み合わせた検索アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2023-02-04T22:09:17Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval [27.549695661396274]
視覚的類似性検索とユーザ提供フィルタと「条件」を組み合わせた条件付き画像検索(CIR)を導入する。
CIRは、画像コーパスの異なるサブセットにまたがる類似した画像のペアを見つけることができる。
我々は,我々のCIRデータ構造がGAN(Generative Adversarial Networks)において,真のデータ分布を適切にモデル化できない「盲点」を識別可能であることを示す。
論文 参考訳(メタデータ) (2020-07-14T16:50:29Z) - Adaptive Semantic-Visual Tree for Hierarchical Embeddings [67.01307058209709]
本稿では,商品カテゴリのアーキテクチャを記述するために,階層型適応型セマンティックビジュアルツリーを提案する。
この木は、異なる意味レベルと同じ意味クラス内の視覚的類似度を同時に評価する。
各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学習する。
論文 参考訳(メタデータ) (2020-03-08T03:36:42Z) - CBIR using features derived by Deep Learning [0.0]
CBIR(Content Based Image Retrieval)システムでは、クエリ画像が与えられた大きなデータベースから同様の画像を検索する。
本稿では,大規模な画像分類問題に対して学習したディープラーニング畳み込みネットワークから,事前学習したネットワークモデルから派生した特徴を用いることを提案する。
論文 参考訳(メタデータ) (2020-02-13T21:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。