論文の概要: Seeing and Knowing in the Wild: Open-domain Visual Entity Recognition with Large-scale Knowledge Graphs via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2510.13675v1
- Date: Wed, 15 Oct 2025 15:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.741115
- Title: Seeing and Knowing in the Wild: Open-domain Visual Entity Recognition with Large-scale Knowledge Graphs via Contrastive Learning
- Title(参考訳): 大規模知識グラフを用いたオープンドメインビジュアルエンティティ認識
- Authors: Hongkuan Zhou, Lavdim Halilaj, Sebastian Monka, Stefan Schmid, Yuqicheng Zhu, Jingcheng Wu, Nadeem Nazer, Steffen Staab,
- Abstract要約: オープンドメインのビジュアルエンティティ認識は、画像に描かれたエンティティを、広範に進化する現実世界の概念の集合に識別し、リンクすることを目的としている。
本稿では,画像とテキスト記述を共有意味空間に組み合わせた知識誘導型コントラスト学習フレームワークを提案する。
我々の実験は、視覚的、テキスト的、構造化された知識を用いることで、特に稀で目に見えないエンティティの精度が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 17.580250180523752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-domain visual entity recognition aims to identify and link entities depicted in images to a vast and evolving set of real-world concepts, such as those found in Wikidata. Unlike conventional classification tasks with fixed label sets, it operates under open-set conditions, where most target entities are unseen during training and exhibit long-tail distributions. This makes the task inherently challenging due to limited supervision, high visual ambiguity, and the need for semantic disambiguation. In this work, we propose a Knowledge-guided Contrastive Learning (KnowCoL) framework that combines both images and text descriptions into a shared semantic space grounded by structured information from Wikidata. By abstracting visual and textual inputs to a conceptual level, the model leverages entity descriptions, type hierarchies, and relational context to support zero-shot entity recognition. We evaluate our approach on the OVEN benchmark, a large-scale open-domain visual recognition dataset with Wikidata IDs as the label space. Our experiments show that using visual, textual, and structured knowledge greatly improves accuracy, especially for rare and unseen entities. Our smallest model improves the accuracy on unseen entities by 10.5% compared to the state-of-the-art, despite being 35 times smaller.
- Abstract(参考訳): オープンドメインのビジュアルエンティティ認識は、画像に描かれたエンティティをウィキデータに見られるような、広範に進化した現実世界の概念の集合に識別し、リンクすることを目的としている。
固定ラベルセットを持つ従来の分類タスクとは異なり、ほとんどのターゲットエンティティはトレーニング中に見えず、長い尾の分布を示すオープンセット条件の下で動作している。
これにより、限られた監督、高い視覚的あいまいさ、意味的曖昧さの必要性により、タスクは本質的に困難になる。
本研究では,知識誘導型コントラスト学習(KnowCoL)フレームワークを提案する。
視覚的およびテキスト的入力を概念レベルで抽象化することにより、モデルはエンティティ記述、型階層、リレーショナルコンテキストを活用して、ゼロショットエンティティ認識をサポートする。
我々は、Wikidata IDをラベル空間とする大規模オープンドメイン視覚認識データセットであるOVENベンチマークに対するアプローチを評価した。
我々の実験は、視覚的、テキスト的、構造化された知識を用いることで、特に稀で目に見えないエンティティの精度が大幅に向上することを示した。
我々の最小のモデルは、35倍小さいにもかかわらず、最先端のモデルと比べて、目に見えない物体の精度を10.5%向上させる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Open-domain Visual Entity Recognition: Towards Recognizing Millions of
Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文 参考訳(メタデータ) (2023-02-22T05:31:26Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。