Fugu-MT 論文翻訳(概要): A Generative Approach for Wikipedia-Scale Visual Entity Recognition

論文の概要: A Generative Approach for Wikipedia-Scale Visual Entity Recognition

arxiv url: http://arxiv.org/abs/2403.02041v1
Date: Mon, 4 Mar 2024 13:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:35:26.738698
Title: A Generative Approach for Wikipedia-Scale Visual Entity Recognition
Title（参考訳）: ウィキペディア規模のビジュアルエンティティ認識のための生成的アプローチ
Authors: Mathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid
Abstract要約: 与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
参考スコア（独自算出の注目度）: 61.783728119255365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we address web-scale visual entity recognition, specifically the task of mapping a given query image to one of the 6 million existing entities in Wikipedia. One way of approaching a problem of such scale is using dual-encoder models (eg CLIP), where all the entity names and query images are embedded into a unified space, paving the way for an approximate k-NN search. Alternatively, it is also possible to re-purpose a captioning model to directly generate the entity names for a given image. In contrast, we introduce a novel Generative Entity Recognition (GER) framework, which given an input image learns to auto-regressively decode a semantic and discriminative ``code'' identifying the target entity. Our experiments demonstrate the efficacy of this GER paradigm, showcasing state-of-the-art performance on the challenging OVEN benchmark. GER surpasses strong captioning, dual-encoder, visual matching and hierarchical classification baselines, affirming its advantage in tackling the complexities of web-scale recognition.
Abstract（参考訳）: 本稿では,Webスケールのビジュアルエンティティ認識,特にクエリイメージをウィキペディアに存在する600万の既存エンティティの1つにマッピングするタスクに対処する。このようなスケールの問題にアプローチする方法の1つはデュアルエンコーダモデル(eg CLIP)を使用することで、すべてのエンティティ名とクエリイメージが統一された空間に埋め込まれ、近似k-NN探索の道を開く。あるいは、キャプションモデルを再利用して、与えられた画像のエンティティ名を直接生成することもできる。これとは対照的に,入力画像が与えられた場合,対象エンティティを識別する意味的かつ判別的な ‘コード' を自動復号化することを学ぶ,新たな生成エンティティ認識(ger)フレームワークを導入する。我々は,このGERパラダイムの有効性を実証し,挑戦的なOVENベンチマークにおける最先端性能を示す。 gerは強力なキャプション、デュアルエンコーダ、視覚的マッチング、階層的分類基準を上回っており、webスケール認識の複雑さに取り組む上での利点を証明している。

関連論文リスト

Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。 UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:42:49Z)
The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning [30.485929387603463]
コンテキスト認識は、画像から構造化された意味的要約を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。既存の方法では,動詞の分類を単一ラベル問題として扱うが,この定式化は視覚事象認識における固有の曖昧さに対処できないという包括的分析を通して示す。第一に,動詞分類が本質的には多言語の問題であることを示す経験的分析を通して,動詞カテゴリー間のユビキタスな意味的重複から,その特徴を明らかにする。第二に、複数ラベル付き大規模データセットの完全注釈付けの非現実性を考えると、動詞分類を1つの正のマルチラベル学習として再構成することを提案する。
論文参考訳（メタデータ） (2025-08-29T17:51:55Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文参考訳（メタデータ） (2024-09-26T16:49:58Z)
ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文参考訳（メタデータ） (2024-08-07T21:44:29Z)
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。 PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文参考訳（メタデータ） (2023-02-22T05:31:26Z)
An Effective Automatic Image Annotation Model Via Attention Model and Data Equilibrium [0.0]
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。 2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
論文参考訳（メタデータ） (2020-01-26T05:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。