論文の概要: FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo
Embeddings
- arxiv url: http://arxiv.org/abs/2308.09012v1
- Date: Thu, 17 Aug 2023 14:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:36:02.087200
- Title: FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo
Embeddings
- Title(参考訳): FashionLOGO: Fashion Logo Embeddingsのためのマルチモーダル大規模言語モデルの提案
- Authors: Yulin Su, Min Yang, Minghui Qiu, Jing Wang, Tao Wang
- Abstract要約: ロゴ埋め込みの堅牢性を向上させるために,テキスト知識を補助として活用する新しい手法を提案する。
我々は、画像埋め込みクエリがテキスト埋め込みから補足的知識を自動学習できるようにするために、クロスアテンショントランスフォーマーを採用している。
実世界の3つのデータセットに対する実験により、FashionLOGOは一般化されたロバストなロゴ埋め込みを学習することを示した。
- 参考スコア(独自算出の注目度): 27.2486625516539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logo embedding plays a crucial role in various e-commerce applications by
facilitating image retrieval or recognition, such as intellectual property
protection and product search. However, current methods treat logo embedding as
a purely visual problem, which may limit their performance in real-world
scenarios. A notable issue is that the textual knowledge embedded in logo
images has not been adequately explored. Therefore, we propose a novel approach
that leverages textual knowledge as an auxiliary to improve the robustness of
logo embedding. The emerging Multimodal Large Language Models (MLLMs) have
demonstrated remarkable capabilities in both visual and textual understanding
and could become valuable visual assistants in understanding logo images.
Inspired by this observation, our proposed method, FashionLOGO, aims to utilize
MLLMs to enhance fashion logo embedding. We explore how MLLMs can improve logo
embedding by prompting them to generate explicit textual knowledge through
three types of prompts, including image OCR, brief captions, and detailed
descriptions prompts, in a zero-shot setting. We adopt a cross-attention
transformer to enable image embedding queries to learn supplementary knowledge
from textual embeddings automatically. To reduce computational costs, we only
use the image embedding model in the inference stage, similar to traditional
inference pipelines. Our extensive experiments on three real-world datasets
demonstrate that FashionLOGO learns generalized and robust logo embeddings,
achieving state-of-the-art performance in all benchmark datasets. Furthermore,
we conduct comprehensive ablation studies to demonstrate the performance
improvements resulting from the introduction of MLLMs.
- Abstract(参考訳): ロゴ埋め込みは、知的財産保護や製品検索といった画像検索や認識を容易にすることで、様々なeコマースアプリケーションにおいて重要な役割を果たす。
しかし、現在の手法はロゴの埋め込みを純粋に視覚的な問題として扱い、現実のシナリオでの性能を制限する可能性がある。
注目すべき問題は、ロゴ画像に埋め込まれたテキスト知識が十分に探求されていないことである。
そこで本研究では,文字知識を補助として,ロゴ埋め込みの堅牢性を向上させる新しい手法を提案する。
MLLM(Multimodal Large Language Models)は、視覚的およびテキスト的理解において顕著な機能を示し、ロゴイメージの理解において貴重な視覚アシスタントとなる可能性がある。
この観察から着想を得た提案手法であるFashionLOGOは,MLLMを用いてファッションロゴの埋め込みを強化することを目的としている。
画像OCR, ブリーフキャプション, 詳細な説明プロンプトを含む3種類のプロンプトをゼロショット設定で生成することで, MLLMがロゴ埋め込みを改善する方法について検討する。
画像埋め込みクエリがテキスト埋め込みから補足知識を自動的に学習できるように,クロス・アテンション・トランスフォーマーを採用している。
計算コストを削減するため、従来の推論パイプラインと同様に、推論段階では画像埋め込みモデルのみを使用します。
実世界の3つのデータセットに関する大規模な実験は、FashionLOGOが一般化された堅牢なロゴ埋め込みを学び、すべてのベンチマークデータセットで最先端のパフォーマンスを達成することを示した。
さらに,MLLMの導入による性能向上を実証するために,包括的アブレーション研究を行った。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding [35.80409077616195]
本稿では,大規模言語モデルによる画像処理を可能にする新しい探索的アプローチを提案する。
画像の代わりにXMLベースの表現記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指している。
提案手法は,LLM機能のみを用いた簡単な画像分類,生成,テキスト内学習を容易にする。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。