論文の概要: Learning an Adaptation Function to Assess Image Visual Similarities
- arxiv url: http://arxiv.org/abs/2206.01417v1
- Date: Fri, 3 Jun 2022 07:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:57:07.962200
- Title: Learning an Adaptation Function to Assess Image Visual Similarities
- Title(参考訳): 画像の類似性を評価する適応関数の学習
- Authors: Olivier Risser-Maroix (LIPADE), Amine Marzouki (LIPADE), Hala Djeghim
(LIPADE), Camille Kurtz (LIPADE), Nicolas Lomenie (LIPADE)
- Abstract要約: ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perception is routinely assessing the similarity between images, both
for decision making and creative thinking. But the underlying cognitive process
is not really well understood yet, hence difficult to be mimicked by computer
vision systems. State-of-the-art approaches using deep architectures are often
based on the comparison of images described as feature vectors learned for
image categorization task. As a consequence, such features are powerful to
compare semantically related images but not really efficient to compare images
visually similar but semantically unrelated. Inspired by previous works on
neural features adaptation to psycho-cognitive representations, we focus here
on the specific task of learning visual image similarities when analogy
matters. We propose to compare different supervised, semi-supervised and
self-supervised networks, pre-trained on distinct scales and contents datasets
(such as ImageNet-21k, ImageNet-1K or VGGFace2) to conclude which model may be
the best to approximate the visual cortex and learn only an adaptation function
corresponding to the approximation of the the primate IT cortex through the
metric learning framework. Our experiments conducted on the Totally Looks Like
image dataset highlight the interest of our method, by increasing the retrieval
scores of the best model @1 by 2.25x. This research work was recently accepted
for publication at the ICIP 2021 international conference [1]. In this new
article, we expand on this previous work by using and comparing new pre-trained
feature extractors on other datasets.
- Abstract(参考訳): 人間の知覚は、意思決定と創造的思考の両方において、画像間の類似性を評価する。
しかし、基礎となる認知過程はまだよく理解されていないため、コンピュータビジョンシステムによって模倣されることは困難である。
ディープアーキテクチャを用いた最先端のアプローチは、しばしば画像分類タスクで学んだ特徴ベクトルとして記述された画像の比較に基づいている。
その結果、これらの特徴は意味的に関連のある画像を比較するのに強力であるが、視覚的に類似しているが意味的に無関係な画像を比較するのは非常に効率的ではない。
神経特徴を心理認知表現に適応させる以前の研究に触発されて、類推が重要なときの視覚的イメージ類似性学習の特定のタスクに焦点を当てた。
本稿では,視覚野の近似に最適なモデルと,霊長類IT大脳皮質の近似に対応する適応関数のみをメトリック学習フレームワークを介して学習するために,異なるスケールとコンテンツデータセット(ImageNet-21k, ImageNet-1K, VGGFace2)で事前学習された異なる教師付き,半教師付き,自己教師付きネットワークを比較することを提案する。
画像データセットで行った実験では,ベストモデル@1の検索スコアを2.25倍に増やすことで,本手法の興味を浮き彫りにした。
この研究はICIP 2021国際会議(ICIP 2021 International Conference [1])で発表された。
本稿では,この前の研究を,事前学習した特徴抽出器を他のデータセットで使用・比較することで拡張する。
関連論文リスト
- CorrEmbed: Evaluating Pre-trained Model Image Similarity Efficacy with a
Novel Metric [6.904776368895614]
我々は、CorrEmbedという新しいアプローチを用いて、事前訓練されたコンピュータビジョンモデルから画像埋め込みの有効性を評価する。
本研究では,画像埋め込みにおける距離と人為的タグベクトルにおける距離との相関を計算した。
また,このパターンからの逸脱を同定し,異なるモデルが高レベル画像の特徴をどのように捉えているかについての洞察を与える。
論文 参考訳(メタデータ) (2023-08-30T16:23:07Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Kinship Verification Based on Cross-Generation Feature Interaction
Learning [53.62256887837659]
顔画像からの血縁検証は、コンピュータビジョンの応用において、新しいが挑戦的な技術として認識されている。
本稿では,頑健な親族関係検証のためのクロスジェネレーション・インタラクション・ラーニング(CFIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-07T01:50:50Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。