論文の概要: ZeroSearch: Local Image Search from Text with Zero Shot Learning
- arxiv url: http://arxiv.org/abs/2305.00715v1
- Date: Mon, 1 May 2023 08:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:42:31.371434
- Title: ZeroSearch: Local Image Search from Text with Zero Shot Learning
- Title(参考訳): ZeroSearch: ゼロショット学習によるテキストからのローカルイメージ検索
- Authors: Jatin Nainani, Abhishek Mazumdar, Viraj Sheth
- Abstract要約: 本稿では、ゼロショット学習を利用して、ユーザが提供するテキスト記述だけで画像クエリを作成するソリューションを提案する。
この論文の主な貢献は、事前訓練されたモデルを用いて画像から特徴を抽出するアルゴリズムの開発である。
アルゴリズムの出力は、類似性の下位順にソートされた画像のリストであり、ユーザーがより効率的に特定の画像を見つけるのに役立つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of organizing and finding images in a user's directory has become
increasingly challenging due to the rapid growth in the number of images
captured on personal devices. This paper presents a solution that utilizes zero
shot learning to create image queries with only user provided text
descriptions. The paper's primary contribution is the development of an
algorithm that utilizes pre-trained models to extract features from images. The
algorithm uses OWL to check for the presence of bounding boxes and sorts images
based on cosine similarity scores. The algorithm's output is a list of images
sorted in descending order of similarity, helping users to locate specific
images more efficiently. The paper's experiments were conducted using a custom
dataset to simulate a user's image directory and evaluated the accuracy,
inference time, and size of the models. The results showed that the VGG model
achieved the highest accuracy, while the Resnet50 and InceptionV3 models had
the lowest inference time and size. The papers proposed algorithm provides an
effective and efficient solution for organizing and finding images in a users
local directory. The algorithm's performance and flexibility make it suitable
for various applications, including personal image organization and search
engines. Code and dataset for zero-search are available at:
https://github.com/NainaniJatinZ/zero-search
- Abstract(参考訳): ユーザのディレクトリ内の画像の整理と検索の問題は、パーソナルデバイスで撮影された画像の数の増加により、ますます困難になっている。
本稿では,ゼロショット学習を用いて,ユーザ提供のテキスト記述のみを用いた画像クエリを作成するソリューションを提案する。
この論文の主な貢献は、事前訓練されたモデルを用いて画像から特徴を抽出するアルゴリズムの開発である。
このアルゴリズムはOWLを用いて境界ボックスの存在をチェックし、コサイン類似度スコアに基づいて画像をソートする。
アルゴリズムの出力は類似性の下位順にソートされた画像のリストであり、ユーザーがより効率的に特定の画像を見つけるのに役立つ。
論文の実験は、ユーザのイメージディレクトリをシミュレートするためにカスタムデータセットを使用して行われ、モデルの正確性、推論時間、サイズを評価した。
その結果、vggモデルが最も精度が高かったが、resnet50とinceptionv3モデルが最も低い推定時間とサイズであった。
提案アルゴリズムは,ユーザのローカルディレクトリ内の画像の整理と検索を効果的かつ効率的に行う。
このアルゴリズムの性能と柔軟性は、個人画像の整理や検索エンジンなど、様々なアプリケーションに適している。
zero-searchのコードとデータセットは、https://github.com/NainaniJatinZ/zero-searchで入手できる。
関連論文リスト
- CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval [2.381261552604303]
CLIPアーキテクチャ上に構築された新しいテキストイメージ検索エンジンであるCLIP-Branchesを紹介する。
本手法は,インタラクティブな微調整フェーズを組み込むことにより,従来のテキスト画像検索エンジンを強化する。
この結果から, 微調整により, 検索結果の関連性や精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-19T08:15:10Z) - ADS: Approximate Densest Subgraph for Novel Image Discovery [1.7839986996686323]
本稿では,新しい画像発見のための高速かつトレーニング不要なアルゴリズムを提案する。
我々のアルゴリズムの鍵は、画像の集合を距離重み付きグラフとして定式化することであり、その中で我々の仕事はK-デンストグラフを見つけることである。
より正確な画像のマイニングが可能でありながら、メモリフットプリントを小さくして実行する方がはるかに高速であることを示す。
論文 参考訳(メタデータ) (2024-02-13T19:27:34Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Combined Depth Space based Architecture Search For Person
Re-identification [70.86236888223569]
個人再識別(ReID)のための軽量で適切なネットワークの設計を目指しています。
本研究では,CDNetと呼ばれる効率的なネットワークアーキテクチャの探索に基づく,複合深さ空間(Componed Depth Space, CDS)と呼ばれる新しい検索空間を提案する。
そこで我々はTop-k Sample Search戦略という低コストの検索戦略を提案し、検索空間をフル活用し、局所的な最適結果のトラップを避ける。
論文 参考訳(メタデータ) (2021-04-09T02:40:01Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文 参考訳(メタデータ) (2020-04-03T00:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。