論文の概要: WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
- arxiv url: http://arxiv.org/abs/2603.09921v1
- Date: Tue, 10 Mar 2026 17:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.493872
- Title: WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
- Title(参考訳): WikiCLIP: オープンドメインビジュアルエンティティ認識のための効率的なコントラストベースライン
- Authors: Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He,
- Abstract要約: オープンドメインビジュアルエンティティ認識(VER)は、ウィキペディアのような百科事典の知識基盤のエンティティとイメージを関連付けようとする。
VERに適した最近の生成手法は、高い性能を示すが、高い計算コストがかかる。
オープンドメイン VER の強力な,効率的なベースラインを確立するフレームワークである WikiCLIP を紹介する。
- 参考スコア(独自算出の注目度): 18.56932287056642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-domain visual entity recognition (VER) seeks to associate images with entities in encyclopedic knowledge bases such as Wikipedia. Recent generative methods tailored for VER demonstrate strong performance but incur high computational costs, limiting their scalability and practical deployment. In this work, we revisit the contrastive paradigm for VER and introduce WikiCLIP, a simple yet effective framework that establishes a strong and efficient baseline for open-domain VER. WikiCLIP leverages large language model embeddings as knowledge-rich entity representations and enhances them with a Vision-Guided Knowledge Adaptor (VGKA) that aligns textual semantics with visual cues at the patch level. To further encourage fine-grained discrimination, a Hard Negative Synthesis Mechanism generates visually similar but semantically distinct negatives during training. Experimental results on popular open-domain VER benchmarks, such as OVEN, demonstrate that WikiCLIP significantly outperforms strong baselines. Specifically, WikiCLIP achieves a 16% improvement on the challenging OVEN unseen set, while reducing inference latency by nearly 100 times compared with the leading generative model, AutoVER. The project page is available at https://artanic30.github.io/project_pages/WikiCLIP/
- Abstract(参考訳): オープンドメインビジュアルエンティティ認識(VER)は、ウィキペディアのような百科事典の知識基盤のエンティティとイメージを関連付けようとする。
VERに適した最近の生成手法は、高い性能を示すが、高い計算コストを伴い、スケーラビリティと実用的な展開を制限している。
本研究では、VERの対照的なパラダイムを再考し、オープンドメインVERの強力かつ効率的なベースラインを確立する、単純かつ効果的なフレームワークであるWikiCLIPを紹介する。
WikiCLIPは、知識に富むエンティティ表現として大きな言語モデル埋め込みを活用し、それらをパッチレベルでテキストセマンティクスと視覚的手がかりとを整合させるビジョンガイド型知識適応(VGKA)で強化する。
さらにきめ細かい識別を促進するために、ハード負合成機構は訓練中に視覚的に似ているが意味的に異なる負を生成する。
OVENのような人気のあるオープンドメインのVERベンチマークの実験結果は、WikiCLIPが強いベースラインを大幅に上回っていることを示している。
具体的には、WikiCLIPは、主要な生成モデルであるAutoVERと比較して、推論遅延を100倍近く削減しながら、難解なOVENセットに対して16%の改善を実現している。
プロジェクトページはhttps://artanic30.github.io/project_pages/WikiCLIP/で公開されている。
関連論文リスト
- SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - Seeing and Knowing in the Wild: Open-domain Visual Entity Recognition with Large-scale Knowledge Graphs via Contrastive Learning [17.580250180523752]
オープンドメインのビジュアルエンティティ認識は、画像に描かれたエンティティを、広範に進化する現実世界の概念の集合に識別し、リンクすることを目的としている。
本稿では,画像とテキスト記述を共有意味空間に組み合わせた知識誘導型コントラスト学習フレームワークを提案する。
我々の実験は、視覚的、テキスト的、構造化された知識を用いることで、特に稀で目に見えないエンティティの精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-10-15T15:33:36Z) - Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval [21.262531222066208]
本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-17T09:31:47Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Open-domain Visual Entity Recognition: Towards Recognizing Millions of
Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文 参考訳(メタデータ) (2023-02-22T05:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。