論文の概要: Logo-VGR: Visual Grounded Reasoning for Open-world Logo Recognition
- arxiv url: http://arxiv.org/abs/2509.25811v1
- Date: Tue, 30 Sep 2025 05:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.443011
- Title: Logo-VGR: Visual Grounded Reasoning for Open-world Logo Recognition
- Title(参考訳): Logo-VGR: オープンワールドローゴ認識のための視覚的接地推論
- Authors: Zichen Liang, Jingjing Fei, Jie Wang, Zheming Yang, Changqing Li, Pei Wu, Minghui Qiu, Fei Yang, Xialei Liu,
- Abstract要約: 我々は,製品モデレーションにおける中核的な課題である,オープンワールドのロゴ認識ベンチマークを導入する。
数万のブランドを記憶する従来のロゴ認識手法とは異なり,Logo-VGRを提案する。
OOD設定では,Logo-VGRが10ポイント近く,強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 25.658499211854153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have been primarily evaluated on general-purpose benchmarks, while their applications in domain-specific scenarios, such as intelligent product moderation, remain underexplored. To address this gap, we introduce an open-world logo recognition benchmark, a core challenge in product moderation. Unlike traditional logo recognition methods that rely on memorizing representations of tens of thousands of brands-an impractical approach in real-world settings-our proposed method, Logo-VGR, enables generalization to large-scale brand recognition with supervision from only a small subset of brands. Specifically, we reformulate logo recognition as a comparison-based task, requiring the model to match product images with candidate logos rather than directly generating brand labels. We further observe that existing models tend to overfit by memorizing brand distributions instead of learning robust multimodal reasoning, which results in poor performance on unseen brands. To overcome this limitation, Logo-VGR introduces a new paradigm of domain-specific multimodal reasoning: Logo Perception Grounding injects domain knowledge, and Logo-Guided Visual Grounded Reasoning enhances the model's reasoning capability. Experimental results show that Logo-VGR outperforms strong baselines by nearly 10 points in OOD settings, demonstrating superior generalization.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は主に汎用ベンチマークで評価されている。
このギャップに対処するため、私たちはオープンワールドのロゴ認識ベンチマークを導入しました。
数万のブランドの表現を記憶する従来のロゴ認識手法とは違って,提案手法であるLogo-VGRは,少数のブランドのみを監督した大規模ブランド認識への一般化を可能にする。
具体的には,ブランドラベルを直接生成するのではなく,製品イメージと候補ロゴとを一致させるモデルを必要とするため,ロゴ認識を比較ベースタスクとして再構成する。
さらに、既存のモデルは、堅牢なマルチモーダル推論を学習する代わりに、ブランドの分布を記憶することで過度に適合する傾向にあり、その結果、見当たらないブランドの性能は低下する。
Logo Perception Groundingはドメイン知識を注入し、Logo-Guided Visual Grounded Reasoningはモデルの推論能力を高める。
実験結果から,LOGO-VGRはOOD設定において10点近くで強いベースラインを上回り,より優れた一般化を示した。
関連論文リスト
- LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - SLANT: Spurious Logo ANalysis Toolkit [61.59021920232986]
SLANT: Spurious Logo Analysis Toolkitを開発した。
というロゴをマイニングするためのセミオートマチックなメカニズムが組み込まれている。
我々は、VLモデルが負の人形容詞と相関する様々な無害なロゴを発見した。
攻撃者は有害なコンテンツに急激なロゴを配置することができ、モデルがそれを無害と誤分類する原因となった。
論文 参考訳(メタデータ) (2024-06-03T15:41:31Z) - FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings [26.395196542803543]
本稿では,MLLMに製品画像の適切なテキストを生成するよう促すアプローチを提案する。
実世界のデータセットに関する我々の実験は、FashionLOGOが汎用的で堅牢なロゴ埋め込みを生成することができることを証明している。
論文 参考訳(メタデータ) (2023-08-17T14:30:26Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z) - Deep Learning for Logo Detection: A Survey [59.278443852492465]
本稿では, 深層学習技術のロゴ検出への応用について概説する。
既存のロゴ検出戦略と学習戦略の長所と短所を詳細に分析する。
知的輸送やブランド監視から著作権や商標の遵守に至るまで,さまざまな分野におけるロゴ検出の応用を要約する。
論文 参考訳(メタデータ) (2022-10-10T02:07:41Z) - Multi-Label Logo Recognition and Retrieval based on Weighted Fusion of
Neural Features [6.6144185930393435]
ロゴ画像の多ラベル分類と類似性検索のためのシステムを提案する。
この方法は、その形状、色、ビジネスセクター、意味論、一般的な特徴に基づいて、最も類似したロゴを得ることを可能にする。
提案手法はEUTMデータセットを用いて評価される。
論文 参考訳(メタデータ) (2022-05-11T11:40:40Z) - Discriminative Semantic Feature Pyramid Network with Guided Anchoring
for Logo Detection [52.36825190893928]
我々は,DSFP-GAを用いた識別的セマンティック特徴ピラミッドネットワークという新しい手法を提案する。
我々のアプローチは主に差別的セマンティック特徴ピラミッド(DSFP)とガイドアンコリング(GA)から構成される。
論文 参考訳(メタデータ) (2021-08-31T11:59:00Z) - An Effective and Robust Detector for Logo Detection [58.448716977297565]
一部の攻撃者は、よく訓練されたロゴ検出モデルを侵害で騙している。
本稿では,2回検討する機構に基づく新しいロゴ検出手法を提案する。
我々は,デテクトRSアルゴリズムを,等化損失関数,マルチスケール変換,および逆データ拡張を備えたカスケードスキーマに拡張する。
論文 参考訳(メタデータ) (2021-08-01T10:17:53Z) - LogoDet-3K: A Large-Scale Image Dataset for Logo Detection [61.296935298332606]
完全アノテーション付き最大のロゴ検出データセットであるLogoDet-3Kを紹介する。
3000のロゴカテゴリー、約20万の注釈付きロゴオブジェクト、158,652の画像がある。
大規模なロゴ検出のための最先端のYOLOv3フレームワークにFocal LosとCIoU Losを組み込んだ強力なベースライン手法であるLogo-Yoloを提案する。
論文 参考訳(メタデータ) (2020-08-12T14:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。