論文の概要: CLIPSE -- a minimalistic CLIP-based image search engine for research
- arxiv url: http://arxiv.org/abs/2504.17643v1
- Date: Thu, 24 Apr 2025 15:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.429638
- Title: CLIPSE -- a minimalistic CLIP-based image search engine for research
- Title(参考訳): CLIPSE - 研究のための最小限のCLIPベースの画像検索エンジン
- Authors: Steve Göring,
- Abstract要約: 一般的に、CLIPSEはCLIP埋め込みを使用して画像とテキストクエリを処理する。
2つのベンチマークシナリオが説明され、評価され、インデックス化とクエリ時間をカバーする。
CLIPSEは、より小さなデータセットを処理可能であることを示し、より大きなデータセットでは、複数のインスタンスを持つ分散アプローチを検討する必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A brief overview of CLIPSE, a self-hosted image search engine with the main application of research, is provided. In general, CLIPSE uses CLIP embeddings to process the images and also the text queries. The overall framework is designed with simplicity to enable easy extension and usage. Two benchmark scenarios are described and evaluated, covering indexing and querying time. It is shown that CLIPSE is capable of handling smaller datasets; for larger datasets, a distributed approach with several instances should be considered.
- Abstract(参考訳): 研究を主目的とした自己ホスト型画像検索エンジンCLIPSEの概要について概説する。
一般的に、CLIPSEはCLIP埋め込みを使用して画像とテキストクエリを処理する。
全体的なフレームワークは、拡張と使用を容易にするためにシンプルに設計されている。
2つのベンチマークシナリオが説明され、評価され、インデックス化とクエリ時間をカバーする。
CLIPSEは、より小さなデータセットを処理可能であることを示し、より大きなデータセットでは、複数のインスタンスを持つ分散アプローチを検討する必要がある。
関連論文リスト
- CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation [3.1667055223489786]
対照的な言語-画像 事前学習モデルはゼロショット分類では優れているが、複雑な多目的シナリオでは課題に直面している。
この研究は、特別なデータセットであるComCOを使用して、これらのコンテキストにおけるCLIPの制限を包括的に分析する。
テキストエンコーダは初期オブジェクトを優先し,画像エンコーダはより大きなオブジェクトを優先する。
論文 参考訳(メタデータ) (2025-02-27T07:34:42Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval [2.381261552604303]
CLIPアーキテクチャ上に構築された新しいテキストイメージ検索エンジンであるCLIP-Branchesを紹介する。
本手法は,インタラクティブな微調整フェーズを組み込むことにより,従来のテキスト画像検索エンジンを強化する。
この結果から, 微調整により, 検索結果の関連性や精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-19T08:15:10Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Injecting Image Details into CLIP's Feature Space [29.450159407113155]
本稿では,高解像度画像に対して単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは、慎重に設計した画像パッチ法から抽出したCLIP機能に基づいて、機能融合モデルを訓練する。
実世界および合成データセット上のクラストリガークエリから画像を取得することで、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2022-08-31T06:18:10Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。