論文の概要: CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval
- arxiv url: http://arxiv.org/abs/2406.13322v1
- Date: Wed, 19 Jun 2024 08:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 21:41:05.823299
- Title: CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval
- Title(参考訳): CLIP-Branches: テキスト画像検索のためのインタラクティブなファインチューニング
- Authors: Christian Lülf, Denis Mayr Lima Martins, Marcos Antonio Vaz Salles, Yongluan Zhou, Fabian Gieseke,
- Abstract要約: CLIPアーキテクチャ上に構築された新しいテキストイメージ検索エンジンであるCLIP-Branchesを紹介する。
本手法は,インタラクティブな微調整フェーズを組み込むことにより,従来のテキスト画像検索エンジンを強化する。
この結果から, 微調整により, 検索結果の関連性や精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 2.381261552604303
- License:
- Abstract: The advent of text-image models, most notably CLIP, has significantly transformed the landscape of information retrieval. These models enable the fusion of various modalities, such as text and images. One significant outcome of CLIP is its capability to allow users to search for images using text as a query, as well as vice versa. This is achieved via a joint embedding of images and text data that can, for instance, be used to search for similar items. Despite efficient query processing techniques such as approximate nearest neighbor search, the results may lack precision and completeness. We introduce CLIP-Branches, a novel text-image search engine built upon the CLIP architecture. Our approach enhances traditional text-image search engines by incorporating an interactive fine-tuning phase, which allows the user to further concretize the search query by iteratively defining positive and negative examples. Our framework involves training a classification model given the additional user feedback and essentially outputs all positively classified instances of the entire data catalog. By building upon recent techniques, this inference phase, however, is not implemented by scanning the entire data catalog, but by employing efficient index structures pre-built for the data. Our results show that the fine-tuned results can improve the initial search outputs in terms of relevance and accuracy while maintaining swift response times
- Abstract(参考訳): テキスト画像モデルの出現、特にCLIPは、情報検索のランドスケープを大きく変えた。
これらのモデルは、テキストや画像などの様々なモダリティの融合を可能にする。
CLIPの大きな成果の1つは、ユーザがクエリとしてテキストを使用してイメージを検索できる機能であり、その逆も可能であることだ。
これは、画像とテキストデータの共同埋め込みによって実現され、例えば、同様のアイテムを検索することができる。
近接探索のような効率的なクエリ処理技術にもかかわらず、精度と完全性に欠ける可能性がある。
CLIPアーキテクチャ上に構築された新しいテキストイメージ検索エンジンであるCLIP-Branchesを紹介する。
提案手法は,インタラクティブな微調整フェーズを組み込むことで従来のテキスト画像検索エンジンを強化し,ポジティブな例とネガティブな例を反復的に定義することで,検索クエリをさらに強化する。
我々のフレームワークは、追加のユーザフィードバックを考慮に入れた分類モデルをトレーニングし、データカタログ全体の正に分類されたインスタンスを出力します。
しかし、最近の技術に基づいて、この推論フェーズは、データカタログ全体をスキャンすることで実装されるのではなく、データのために事前に構築された効率的なインデックス構造を使用することによって実現されている。
この結果から, 高速応答時間を維持しつつ, 検索結果の関連性, 精度を向上できることがわかった。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model [4.531548217880843]
画像検索のための革新的なユーザ意図拡張フレームワークを提案する。
本フレームワークは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成する。
提案フレームワークは,ユーザの画像検索体験を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-04T06:14:25Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with
Partial Query [25.398090300086302]
本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。
Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。
テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
論文 参考訳(メタデータ) (2021-03-02T11:27:05Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。