論文の概要: Self-Enhancement Improves Text-Image Retrieval in Foundation
Visual-Language Models
- arxiv url: http://arxiv.org/abs/2306.06691v1
- Date: Sun, 11 Jun 2023 14:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:16:47.978428
- Title: Self-Enhancement Improves Text-Image Retrieval in Foundation
Visual-Language Models
- Title(参考訳): 基礎的視覚言語モデルにおけるテキスト画像検索の改善
- Authors: Yuguang Yang, Yiming Wang, Shupeng Geng, Runqi Wang, Yimi Wang, Sheng
Wu, Baochang Zhang
- Abstract要約: クロスモーダル基盤モデルは、ドメイン固有の検索タスクに必要な重要な属性に焦点を合わせない。
本稿では,CLIP-ViT/G-14をベースとした自己拡張フレームワークA3Rを提案する。
- 参考スコア(独自算出の注目度): 33.008325765051865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of cross-modal foundation models has introduced numerous
approaches grounded in text-image retrieval. However, on some domain-specific
retrieval tasks, these models fail to focus on the key attributes required. To
address this issue, we propose a self-enhancement framework, A^{3}R, based on
the CLIP-ViT/G-14, one of the largest cross-modal models. First, we perform an
Attribute Augmentation strategy to enrich the textual description for
fine-grained representation before model learning. Then, we propose an Adaption
Re-ranking method to unify the representation space of textual query and
candidate images and re-rank candidate images relying on the adapted query
after model learning. The proposed framework is validated to achieve a salient
improvement over the baseline and other teams' solutions in the cross-modal
image retrieval track of the 1st foundation model challenge without introducing
any additional samples. The code is available at
\url{https://github.com/CapricornGuang/A3R}.
- Abstract(参考訳): クロスモーダル基礎モデルの出現は,テキスト画像検索を基盤とした多数のアプローチを導入している。
しかし、いくつかのドメイン固有の検索タスクでは、これらのモデルは要求される重要な属性に焦点を合わせない。
この問題に対処するため,我々は,最大のクロスモーダルモデルの一つである clip-vit/g-14 に基づいた自己強化フレームワーク a^{3}r を提案する。
まず、モデル学習の前に、きめ細かな表現のためのテキスト記述を豊かにする属性拡張戦略を実行する。
そこで本研究では,テキストクエリと候補画像の表現空間を統一し,モデル学習後の適応クエリに依存する候補画像を再ランクする適応再ランク手法を提案する。
提案フレームワークは,第1次ファンデーションモデルチャレンジのクロスモーダル画像検索トラックにおいて,ベースラインや他のチームのソリューションよりも優れた改善を実現するために,追加サンプルを導入することなく検証される。
コードは \url{https://github.com/capricornguang/a3r} で入手できる。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - The Solution for the CVPR2023 NICE Image Captioning Challenge [11.37047794237074]
我々はZero-shot Image Captioning Challengeの新たなフロンティアにソリューションを提示する。
この課題には、多くのドメインからの新しい視覚的概念が含まれる。
データレベルでは、Laion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、大規模な視覚言語事前学習モデルであるOFAを使用する。
論文 参考訳(メタデータ) (2023-10-10T09:09:41Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。