論文の概要: Needle In A Haystack, Fast: Benchmarking Image Perceptual Similarity
Metrics At Scale
- arxiv url: http://arxiv.org/abs/2206.00282v1
- Date: Wed, 1 Jun 2022 07:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 13:15:17.773724
- Title: Needle In A Haystack, Fast: Benchmarking Image Perceptual Similarity
Metrics At Scale
- Title(参考訳): Needle in a Haystack, Fast: 画像認識の類似度を大規模にベンチマークする
- Authors: Cyril Vallez, Andrei Kucharavy, Ljiljana Dolamic
- Abstract要約: DhashパーセプショナルハッシュとSimCLR v2 ResNetsは優れた性能を示し、スケールが良く、計算効率が良いことを示す。
多くのアルゴリズムが利用可能であり、現在それを実行するのに使われているが、これまでのところ、質問や仮定、計算資源に最も適したアルゴリズムの選択について、研究者の選択を導く包括的なレビューは行われていない。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of the internet, followed shortly by the social media made it
ubiquitous in consuming and sharing information between anyone with access to
it. The evolution in the consumption of media driven by this change, led to the
emergence of images as means to express oneself, convey information and
convince others efficiently. With computer vision algorithms progressing
radically over the last decade, it is become easier and easier to study at
scale the role of images in the flow of information online. While the research
questions and overall pipelines differ radically, almost all start with a
crucial first step - evaluation of global perceptual similarity between
different images. That initial step is crucial for overall pipeline performance
and processes most images. A number of algorithms are available and currently
used to perform it, but so far no comprehensive review was available to guide
the choice of researchers as to the choice of an algorithm best suited to their
question, assumptions and computational resources. With this paper we aim to
fill this gap, showing that classical computer vision methods are not
necessarily the best approach, whereas a pair of relatively little used methods
- Dhash perceptual hash and SimCLR v2 ResNets achieve excellent performance,
scale well and are computationally efficient.
- Abstract(参考訳): インターネットが出現し、間もなくソーシャルメディアが登場し、インターネットにアクセスする人の間で情報の消費と共有がユビキタスになった。
この変化によってメディア消費が進化し、自分自身を表現し、情報を伝達し、他者を効率的に説得する手段としてイメージが出現した。
過去10年間でコンピュータビジョンアルゴリズムが飛躍的に進歩し、オンライン情報の流れにおける画像の役割を大規模に研究するのが容易になりつつある。
研究の質問と全体パイプラインは根本的に異なるが、ほとんどすべてが重要な第一歩から始まり、異なる画像間のグローバルな知覚的類似性を評価する。
最初のステップは、パイプラインのパフォーマンスとほとんどのイメージの処理に不可欠です。
多くのアルゴリズムが利用可能であり、現在それを実行するのに使われているが、これまでのところ、質問や仮定、計算資源に最も適したアルゴリズムの選択について、研究者の選択を導く包括的なレビューは行われていない。
本稿では,従来のコンピュータビジョン手法が必ずしも最善のアプローチではないことを示すとともに,dhash perceptual hash と simclr v2 resnet の2つの手法が優れた性能,スケール性,計算効率を実現していることを示す。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - One-Shot Image Restoration [0.0]
提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。
本結果は,学習モデルのサンプル効率,一般化,時間複雑性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-04-26T14:03:23Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - High Speed Human Action Recognition using a Photonic Reservoir Computer [1.7403133838762443]
我々は,「関心の時間」に基づく貯水池コンピュータの新しい訓練方法を提案する。
我々は,複数のビデオストリームをリアルタイムに処理できる点において,高い精度と速度でタスクを解く。
論文 参考訳(メタデータ) (2023-05-24T16:04:42Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - Deep Image Deblurring: A Survey [165.32391279761006]
低レベルのコンピュータビジョンにおいて、デブロアリングは古典的な問題であり、ぼやけた入力画像からシャープなイメージを復元することを目的としている。
近年のディープラーニングの進歩は、この問題の解決に大きな進歩をもたらした。
論文 参考訳(メタデータ) (2022-01-26T01:31:30Z) - Summarize and Search: Learning Consensus-aware Dynamic Convolution for
Co-Saliency Detection [139.10628924049476]
人間は、まず、グループ全体のコンセンサス知識を要約し、その後、各画像内の対応するオブジェクトを検索することで、共相検出を行う。
以前の方法は、通常、最初のプロセスで堅牢性、スケーラビリティ、安定性を欠き、第2のプロセスでイメージ機能とコンセンサス機能を融合させる。
本稿では,新たなコンセンサスを考慮した動的畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-01T12:06:42Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。