論文の概要: Active Learning for Finely-Categorized Image-Text Retrieval by Selecting Hard Negative Unpaired Samples
- arxiv url: http://arxiv.org/abs/2405.16301v1
- Date: Sat, 25 May 2024 16:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:57:23.878539
- Title: Active Learning for Finely-Categorized Image-Text Retrieval by Selecting Hard Negative Unpaired Samples
- Title(参考訳): 難易度未知サンプルの選択による微細分類画像検索のためのアクティブラーニング
- Authors: Dae Ung Jo, Kyuewang Lee, JaeHo Chung, Jin Young Choi,
- Abstract要約: 画像テキスト検索(ITR)モデルをトレーニングするには、十分な量のペアデータを確保することが重要である。
ITRのための能動的学習アルゴリズムを提案し、ペア化されたデータを低コストで収集する。
提案手法の有効性をFlickr30KおよびMS-COCOデータセットで検証した。
- 参考スコア(独自算出の注目度): 7.883521157895832
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Securing a sufficient amount of paired data is important to train an image-text retrieval (ITR) model, but collecting paired data is very expensive. To address this issue, in this paper, we propose an active learning algorithm for ITR that can collect paired data cost-efficiently. Previous studies assume that image-text pairs are given and their category labels are asked to the annotator. However, in the recent ITR studies, the importance of category label is decreased since a retrieval model can be trained with only image-text pairs. For this reason, we set up an active learning scenario where unpaired images (or texts) are given and the annotator provides corresponding texts (or images) to make paired data. The key idea of the proposed AL algorithm is to select unpaired images (or texts) that can be hard negative samples for existing texts (or images). To this end, we introduce a novel scoring function to choose hard negative samples. We validate the effectiveness of the proposed method on Flickr30K and MS-COCO datasets.
- Abstract(参考訳): 画像テキスト検索(ITR)モデルをトレーニングするには十分なペアデータを確保することが重要であるが、ペアデータ収集は非常に高価である。
この問題に対処するため、本研究では、ペア化されたデータを低コストで収集できるITRの能動的学習アルゴリズムを提案する。
以前の研究では、画像とテキストのペアが与えられ、それらのカテゴリラベルがアノテータに尋ねられると仮定されていた。
しかし、最近のITR研究では、画像とテキストのペアだけで検索モデルを訓練できるため、カテゴリラベルの重要性が低下している。
そこで我々は、未ペア画像(またはテキスト)を付与し、アノテータが対応するテキスト(または画像)をペア化するためのアクティブな学習シナリオを構築した。
提案アルゴリズムの鍵となる考え方は、既存のテキスト(または画像)に対して厳しい負のサンプルとなる未ペア画像(またはテキスト)を選択することである。
そこで本研究では, 高い負のサンプルを選択するための新しいスコアリング機能を提案する。
提案手法の有効性をFlickr30KおよびMS-COCOデータセットで検証した。
関連論文リスト
- Active Mining Sample Pair Semantics for Image-text Matching [6.370886833310617]
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
論文 参考訳(メタデータ) (2023-11-09T15:03:57Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Curriculum Learning for Data-Efficient Vision-Language Alignment [29.95935291982015]
コントラスト学習を用いて画像とテキストのエンコーダをスクラッチから調整するには、大量のペア画像テキストデータが必要である。
我々は、より少ないペアデータを用いて、個別に事前訓練された言語と視覚表現モデルを調整することで、このニーズを緩和する。
TOnICSは、トレーニングデータの1%未満を使用しながら、下流のゼロショット画像検索においてCLIPを上回っている。
論文 参考訳(メタデータ) (2022-07-29T07:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。