論文の概要: Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling
Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt
Augmentation and Text-To-Image Diffusion
- arxiv url: http://arxiv.org/abs/2307.05564v1
- Date: Sun, 9 Jul 2023 22:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 16:17:08.486415
- Title: Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling
Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt
Augmentation and Text-To-Image Diffusion
- Title(参考訳): semeval-2023タスク1:プロンプト拡張とテキストから画像への拡散によるゼロショット視覚wsdの構成性とあいまいさの処理におけるクリップの強化
- Authors: Jie S. Li, Yow-Ting Shiue, Yong-Siang Shih, and Jonas Geiping
- Abstract要約: 本稿では、英語のVisual Word Sense Disambiguation Taskに対するゼロショットアプローチについて述べる。
予備研究により、CLIPを用いたフレーズと候補画像のマッチングは、画像とテキストのペアの多対多性に悩まされていることがわかった。
CLIPテキストエンコーダは、自然言語の合成性を捉える能力に制限がある可能性がある。
- 参考スコア(独自算出の注目度): 7.708214550816408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our zero-shot approaches for the Visual Word Sense
Disambiguation (VWSD) Task in English. Our preliminary study shows that the
simple approach of matching candidate images with the phrase using CLIP suffers
from the many-to-many nature of image-text pairs. We find that the CLIP text
encoder may have limited abilities in capturing the compositionality in natural
language. Conversely, the descriptive focus of the phrase varies from instance
to instance. We address these issues in our two systems, Augment-CLIP and
Stable Diffusion Sampling (SD Sampling). Augment-CLIP augments the text prompt
by generating sentences that contain the context phrase with the help of large
language models (LLMs). We further explore CLIP models in other languages, as
the an ambiguous word may be translated into an unambiguous one in the other
language. SD Sampling uses text-to-image Stable Diffusion to generate multiple
images from the given phrase, increasing the likelihood that a subset of images
match the one that paired with the text.
- Abstract(参考訳): 本稿では,Visual Word Sense Disambiguation (VWSD)タスクに対するゼロショットアプローチについて述べる。
予備研究の結果,クリップを用いて候補画像とフレーズをマッチングする手法は,画像テキスト対の多対多性に苦しむことがわかった。
CLIPテキストエンコーダは、自然言語の合成性を捉える能力に制限がある可能性がある。
逆に、フレーズの記述的焦点は、例によって異なる。
Augment-CLIPとStable Diffusion Smpling(SDサンプリング)という2つのシステムでこの問題に対処する。
Augment-CLIPは、大きな言語モデル(LLM)の助けを借りてコンテキストフレーズを含む文を生成することで、テキストプロンプトを強化する。
あいまいな単語が他言語の曖昧な単語に翻訳される可能性があるため、他の言語のCLIPモデルについても検討する。
sdサンプリングは、テキストから画像への安定した拡散を使用して、与えられた句から複数の画像を生成する。
関連論文リスト
- ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions [17.934227561793474]
文脈記述(IRCD)からの画像検索は、言語学的に複雑なテキストに基づいて、最小限に対照的な候補のセット内で画像を特定することを目的としている。
本稿では,IRCDに挑戦する2つのコンテキストアライメント手法であるContextBLIPを提案する。
約7,500倍のパラメータを含むにもかかわらず、ContextBLIPはGPT-4Vと同等の結果が得られることが観察された。
論文 参考訳(メタデータ) (2024-05-29T16:06:21Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。