論文の概要: A Generative Approach for Wikipedia-Scale Visual Entity Recognition
- arxiv url: http://arxiv.org/abs/2403.02041v2
- Date: Thu, 21 Mar 2024 14:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:58:05.400456
- Title: A Generative Approach for Wikipedia-Scale Visual Entity Recognition
- Title(参考訳): ウィキペディア規模のビジュアルエンティティ認識のための生成的アプローチ
- Authors: Mathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid,
- Abstract要約: 与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 56.55633052479446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address web-scale visual entity recognition, specifically the task of mapping a given query image to one of the 6 million existing entities in Wikipedia. One way of approaching a problem of such scale is using dual-encoder models (eg CLIP), where all the entity names and query images are embedded into a unified space, paving the way for an approximate k-NN search. Alternatively, it is also possible to re-purpose a captioning model to directly generate the entity names for a given image. In contrast, we introduce a novel Generative Entity Recognition (GER) framework, which given an input image learns to auto-regressively decode a semantic and discriminative ``code'' identifying the target entity. Our experiments demonstrate the efficacy of this GER paradigm, showcasing state-of-the-art performance on the challenging OVEN benchmark. GER surpasses strong captioning, dual-encoder, visual matching and hierarchical classification baselines, affirming its advantage in tackling the complexities of web-scale recognition.
- Abstract(参考訳): 本稿では,Webスケールのビジュアルエンティティ認識,特にクエリイメージをウィキペディアに存在する600万の既存エンティティの1つにマッピングするタスクに対処する。
このようなスケールの問題にアプローチする方法の1つはデュアルエンコーダモデル(eg CLIP)を使用することで、すべてのエンティティ名とクエリイメージが統一された空間に埋め込まれ、近似k-NN探索の道を開く。
あるいは、キャプションモデルを再使用して、与えられた画像のエンティティ名を直接生成することもできる。
対照的に、入力画像に意味的・識別的な ``code'' を自動再帰的にデコードすることを学習する、新しい生成エンティティ認識(GER)フレームワークを導入する。
我々は,このGERパラダイムの有効性を実証し,挑戦的なOVENベンチマーク上での最先端性能を示す。
GERは、強力なキャプション、デュアルエンコーダ、ビジュアルマッチング、階層的な分類ベースラインを超え、Webスケール認識の複雑さに対処する上での優位性を確認している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。
画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。
生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文 参考訳(メタデータ) (2024-08-07T21:44:29Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Open-domain Visual Entity Recognition: Towards Recognizing Millions of
Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文 参考訳(メタデータ) (2023-02-22T05:31:26Z) - An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium [0.0]
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-01-26T05:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。