論文の概要: FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo
Embeddings
- arxiv url: http://arxiv.org/abs/2308.09012v1
- Date: Thu, 17 Aug 2023 14:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:36:02.087200
- Title: FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo
Embeddings
- Title(参考訳): FashionLOGO: Fashion Logo Embeddingsのためのマルチモーダル大規模言語モデルの提案
- Authors: Yulin Su, Min Yang, Minghui Qiu, Jing Wang, Tao Wang
- Abstract要約: ロゴ埋め込みの堅牢性を向上させるために,テキスト知識を補助として活用する新しい手法を提案する。
我々は、画像埋め込みクエリがテキスト埋め込みから補足的知識を自動学習できるようにするために、クロスアテンショントランスフォーマーを採用している。
実世界の3つのデータセットに対する実験により、FashionLOGOは一般化されたロバストなロゴ埋め込みを学習することを示した。
- 参考スコア(独自算出の注目度): 27.2486625516539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logo embedding plays a crucial role in various e-commerce applications by
facilitating image retrieval or recognition, such as intellectual property
protection and product search. However, current methods treat logo embedding as
a purely visual problem, which may limit their performance in real-world
scenarios. A notable issue is that the textual knowledge embedded in logo
images has not been adequately explored. Therefore, we propose a novel approach
that leverages textual knowledge as an auxiliary to improve the robustness of
logo embedding. The emerging Multimodal Large Language Models (MLLMs) have
demonstrated remarkable capabilities in both visual and textual understanding
and could become valuable visual assistants in understanding logo images.
Inspired by this observation, our proposed method, FashionLOGO, aims to utilize
MLLMs to enhance fashion logo embedding. We explore how MLLMs can improve logo
embedding by prompting them to generate explicit textual knowledge through
three types of prompts, including image OCR, brief captions, and detailed
descriptions prompts, in a zero-shot setting. We adopt a cross-attention
transformer to enable image embedding queries to learn supplementary knowledge
from textual embeddings automatically. To reduce computational costs, we only
use the image embedding model in the inference stage, similar to traditional
inference pipelines. Our extensive experiments on three real-world datasets
demonstrate that FashionLOGO learns generalized and robust logo embeddings,
achieving state-of-the-art performance in all benchmark datasets. Furthermore,
we conduct comprehensive ablation studies to demonstrate the performance
improvements resulting from the introduction of MLLMs.
- Abstract(参考訳): ロゴ埋め込みは、知的財産保護や製品検索といった画像検索や認識を容易にすることで、様々なeコマースアプリケーションにおいて重要な役割を果たす。
しかし、現在の手法はロゴの埋め込みを純粋に視覚的な問題として扱い、現実のシナリオでの性能を制限する可能性がある。
注目すべき問題は、ロゴ画像に埋め込まれたテキスト知識が十分に探求されていないことである。
そこで本研究では,文字知識を補助として,ロゴ埋め込みの堅牢性を向上させる新しい手法を提案する。
MLLM(Multimodal Large Language Models)は、視覚的およびテキスト的理解において顕著な機能を示し、ロゴイメージの理解において貴重な視覚アシスタントとなる可能性がある。
この観察から着想を得た提案手法であるFashionLOGOは,MLLMを用いてファッションロゴの埋め込みを強化することを目的としている。
画像OCR, ブリーフキャプション, 詳細な説明プロンプトを含む3種類のプロンプトをゼロショット設定で生成することで, MLLMがロゴ埋め込みを改善する方法について検討する。
画像埋め込みクエリがテキスト埋め込みから補足知識を自動的に学習できるように,クロス・アテンション・トランスフォーマーを採用している。
計算コストを削減するため、従来の推論パイプラインと同様に、推論段階では画像埋め込みモデルのみを使用します。
実世界の3つのデータセットに関する大規模な実験は、FashionLOGOが一般化された堅牢なロゴ埋め込みを学び、すべてのベンチマークデータセットで最先端のパフォーマンスを達成することを示した。
さらに,MLLMの導入による性能向上を実証するために,包括的アブレーション研究を行った。
関連論文リスト
- LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。