論文の概要: CLIP Model for Images to Textual Prompts Based on Top-k Neighbors
- arxiv url: http://arxiv.org/abs/2401.09763v1
- Date: Thu, 18 Jan 2024 07:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:48:26.422102
- Title: CLIP Model for Images to Textual Prompts Based on Top-k Neighbors
- Title(参考訳): トップk近傍に基づくテキストプロンプト画像のCLIPモデル
- Authors: Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia
- Abstract要約: 本稿では,イメージ・ツー・プロンプト生成のための費用対効果のアプローチを提案する。
我々は、CLIPモデルとK-nearest neighbors (KNN)アルゴリズムを組み合わせる。
- 参考スコア(独自算出の注目度): 4.3595092184231605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image synthesis, a subfield of multimodal generation, has gained
significant attention in recent years. We propose a cost-effective approach for
image-to-prompt generation that leverages generative models to generate textual
prompts without the need for large amounts of annotated data. We divide our
method into two stages: online stage and offline stage. We use a combination of
the CLIP model and K-nearest neighbors (KNN) algorithm. The proposed system
consists of two main parts: an offline task and an online task. Our method owns
the highest metric 0.612 among these models, which is 0.013, 0.055, 0.011
higher than Clip, Clip + KNN(top 10) respectively.
- Abstract(参考訳): 近年,マルチモーダル生成のサブフィールドであるテキストから画像への合成が注目されている。
生成モデルを利用して大量の注釈付きデータを必要としないテキストプロンプトを生成する,画像からプロンプト生成のための費用対効果の高い手法を提案する。
提案手法をオンラインステージとオフラインステージの2段階に分けた。
我々は、CLIPモデルとK-nearest neighbors (KNN)アルゴリズムを組み合わせる。
提案システムは,オフラインタスクとオンラインタスクの2つの主要な部分から構成される。
本手法は, クリップよりも0.013, 0.055, 0.011, clip + knn (top 10) 高い測定値を持つ。
関連論文リスト
- Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network [2.12696199609647]
本稿では,グラフネットワークに基づくマルチモーダルパラメータ効率の微調整手法を提案する。
提案したモデルでは,OxfordPets,Flowers102,Food101の各データセットでそれぞれ4.45%,2.92%,0.23%の改善が達成されている。
論文 参考訳(メタデータ) (2024-08-01T05:24:20Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Generating EDU Extracts for Plan-Guided Summary Re-Ranking [77.7752504102925]
要約候補を生成して1つの要約を返す2段階のアプローチでは、標準的な単一ステップアプローチよりもROUGEスコアを改善することができる。
これらの問題に対処する再ランク付け候補を生成するための新しい手法を設計する。
広く使われている単一文書ニュース記事コーパスにおいて,以前に公表された手法よりも大きな関連性を示した。
論文 参考訳(メタデータ) (2023-05-28T17:22:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。