論文の概要: Adaptive Semantic-Visual Tree for Hierarchical Embeddings
- arxiv url: http://arxiv.org/abs/2003.03707v1
- Date: Sun, 8 Mar 2020 03:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:26:10.747307
- Title: Adaptive Semantic-Visual Tree for Hierarchical Embeddings
- Title(参考訳): 階層埋め込みのための適応的セマンティクス・ビジュアルツリー
- Authors: Shuo Yang, Wei Yu, Ying Zheng, Hongxun Yao, Tao Mei
- Abstract要約: 本稿では,商品カテゴリのアーキテクチャを記述するために,階層型適応型セマンティックビジュアルツリーを提案する。
この木は、異なる意味レベルと同じ意味クラス内の視覚的類似度を同時に評価する。
各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学習する。
- 参考スコア(独自算出の注目度): 67.01307058209709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merchandise categories inherently form a semantic hierarchy with different
levels of concept abstraction, especially for fine-grained categories. This
hierarchy encodes rich correlations among various categories across different
levels, which can effectively regularize the semantic space and thus make
predictions less ambiguous. However, previous studies of fine-grained image
retrieval primarily focus on semantic similarities or visual similarities. In a
real application, merely using visual similarity may not satisfy the need of
consumers to search merchandise with real-life images, e.g., given a red coat
as a query image, we might get a red suit in recall results only based on
visual similarity since they are visually similar. But the users actually want
a coat rather than suit even the coat is with different color or texture
attributes. We introduce this new problem based on photoshopping in real
practice. That's why semantic information are integrated to regularize the
margins to make "semantic" prior to "visual". To solve this new problem, we
propose a hierarchical adaptive semantic-visual tree (ASVT) to depict the
architecture of merchandise categories, which evaluates semantic similarities
between different semantic levels and visual similarities within the same
semantic class simultaneously. The semantic information satisfies the demand of
consumers for similar merchandise with the query while the visual information
optimizes the correlations within the semantic class. At each level, we set
different margins based on the semantic hierarchy and incorporate them as prior
information to learn a fine-grained feature embedding. To evaluate our
framework, we propose a new dataset named JDProduct, with hierarchical labels
collected from actual image queries and official merchandise images on an
online shopping application. Extensive experimental results on the public
CARS196 and CUB-
- Abstract(参考訳): 商品カテゴリーは本質的に、概念抽象化の異なるレベル、特に細かなカテゴリーのセマンティック階層を形成する。
この階層は、さまざまなレベルにわたるさまざまなカテゴリ間の豊富な相関をエンコードするので、意味空間を効果的に規則化し、予測の曖昧さを軽減できる。
しかし,これまでの精細画像検索の研究は主に意味的類似性や視覚的類似性に焦点が当てられている。
実際のアプリケーションでは、単に視覚的類似性を利用するだけでは、消費者が実際の画像で商品を検索する必要性を満たすことができない可能性がある。
しかし、ユーザーはコートよりもコートを欲しがっている。コートも色やテクスチャの属性が違う。
本稿では,実際の写真撮影に基づく新しい問題を紹介する。
そのため、セマンティック情報は「視覚」の前に「意味」を作るためにマージンを規則化するために統合される。
そこで本研究では,異なる意味レベル間の意味類似度と同一意味クラス内の視覚類似度を同時に評価する商品カテゴリのアーキテクチャを表現する階層的適応的意味視木(asvt)を提案する。
セマンティック情報は、クエリと類似商品に対する消費者の要求を満たす一方、視覚情報はセマンティッククラス内の相関を最適化する。
各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学ぶ。
本フレームワークを評価するために,オンラインショッピングアプリケーション上で,実際の画像クエリと公式商品画像から階層ラベルを収集したJDProductという新しいデータセットを提案する。
パブリックカー196とcubの広範な実験結果
関連論文リスト
- Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - Addressing Discrepancies in Semantic and Visual Alignment in Neural
Networks [0.0]
我々は、意味的に類似するクラスが視覚的に異なっていたり、非類似クラスの間に視覚的類似性が存在する場合の問題を考察する。
本稿では,意味論的に類似したクラスと任意の(視覚的でない)意味的関係をよりよく整合させる目的で,データ拡張手法を提案する。
その結果,提案手法を用いると,意味的に類似したクラス同士のアライメントが増加することがわかった。
論文 参考訳(メタデータ) (2023-06-01T21:03:06Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z) - Learning Representations For Images With Hierarchical Labels [1.3579420996461438]
クラスラベルによって誘導されるセマンティック階層に関する情報を活用するための一連の手法を提案する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の提供により、全体的な性能が向上することを示す。
しかし,CNN分類器には階層的な情報が注入され,組込みベースモデルでは,新たに提示された実世界ETHエコロジーコレクションイメージデータセットの階層非依存モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-04-02T09:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。