Fugu-MT 論文翻訳(概要): Fine-tuning CLIP Text Encoders with Two-step Paraphrasing

論文の概要: Fine-tuning CLIP Text Encoders with Two-step Paraphrasing

arxiv url: http://arxiv.org/abs/2402.15120v1
Date: Fri, 23 Feb 2024 06:11:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:28:50.898258
Title: Fine-tuning CLIP Text Encoders with Two-step Paraphrasing
Title（参考訳）: 2段階パラフレーズを用いた微調整CLIPテキストエンコーダ
Authors: Hyunjae Kim, Seunghyun Yoon, Trung Bui, Handong Zhao, Quan Tran, Franck Dernoncourt, Jaewoo Kang
Abstract要約: パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 83.3736789315201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive language-image pre-training (CLIP) models have demonstrated considerable success across various vision-language tasks, such as text-to-image retrieval, where the model is required to effectively process natural language input to produce an accurate visual output. However, current models still face limitations in dealing with linguistic variations in input queries, such as paraphrases, making it challenging to handle a broad range of user queries in real-world applications. In this study, we introduce a straightforward fine-tuning approach to enhance the representations of CLIP models for paraphrases. Our approach involves a two-step paraphrase generation process, where we automatically create two categories of paraphrases from web-scale image captions by leveraging large language models. Subsequently, we fine-tune the CLIP text encoder using these generated paraphrases while freezing the image encoder. Our resulting model, which we call ParaCLIP, exhibits significant improvements over baseline CLIP models across various tasks, including paraphrased retrieval (with rank similarity scores improved by up to 2.0% and 5.6%), Visual Genome Relation and Attribution, as well as seven semantic textual similarity tasks.
Abstract（参考訳）: 対照的な言語画像事前学習(CLIP)モデルは、テキストから画像への検索など、様々な視覚言語タスクでかなりの成功を収めており、このモデルでは、自然言語入力を効果的に処理して正確な視覚出力を生成する必要がある。しかし、現在のモデルは、パラフレーズのような入力クエリの言語的バリエーションを扱う際にも制限に直面しており、現実世界のアプリケーションで幅広いユーザクエリを扱うことは困難である。本研究では,パラフレーズに対するCLIPモデルの表現性を高めるための簡単な微調整手法を提案する。提案手法では,2段階のパラフレーズ生成プロセスを用いて,大規模画像キャプションから2種類のパラフレーズを自動生成する。その後、生成したパラフレーズを用いてCLIPテキストエンコーダを微調整し、画像エンコーダを凍結する。 ParaCLIPと呼ばれる結果のモデルは、パラフレーズ検索(ランク類似度スコアが最大2.0%および5.6%向上)、Visual Genome Relation and Attribution、セマンティックテキスト類似度タスクなど、様々なタスクのベースラインCLIPモデルよりも大幅に改善されている。

関連論文リスト

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。 CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文参考訳（メタデータ） (2024-09-03T14:33:01Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。 CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-06T06:30:17Z)
User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-08T02:08:00Z)
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文参考訳（メタデータ） (2023-12-01T15:54:55Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。