論文の概要: Visual Named Entity Linking: A New Dataset and A Baseline
- arxiv url: http://arxiv.org/abs/2211.04872v1
- Date: Wed, 9 Nov 2022 13:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:11:38.241382
- Title: Visual Named Entity Linking: A New Dataset and A Baseline
- Title(参考訳): Visual Named Entity Linking: 新しいデータセットとベースライン
- Authors: Wenxiang Sun, Yixing Fan, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng
- Abstract要約: 入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。
本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。
WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
- 参考スコア(独自算出の注目度): 61.38231023490981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Entity Linking (VEL) is a task to link regions of images with their
corresponding entities in Knowledge Bases (KBs), which is beneficial for many
computer vision tasks such as image retrieval, image caption, and visual
question answering. While existing tasks in VEL either rely on textual data to
complement a multi-modal linking or only link objects with general entities,
which fails to perform named entity linking on large amounts of image data. In
this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task,
where the input only consists of an image. The task is to identify objects of
interest (i.e., visual entity mentions) in images and link them to
corresponding named entities in KBs. Since each entity often contains rich
visual and textual information in KBs, we thus propose three different
sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual
entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL).
In addition, we present a high-quality human-annotated visual person linking
dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of
baseline algorithms for the solution of each sub-task, and conduct experiments
to verify the quality of proposed datasets and the effectiveness of baseline
methods. We envision this work to be helpful for soliciting more works
regarding VNEL in the future. The codes and datasets are publicly available at
https://github.com/ict-bigdatalab/VNEL.
- Abstract(参考訳): 視覚エンティティリンク(英語: visual entity link、vel)は、画像の領域とその対応するエンティティを知識ベース(kbs)にリンクするタスクであり、画像検索、画像キャプション、視覚的質問応答など多くのコンピュータビジョンタスクに有用である。
velの既存のタスクは、マルチモーダルリンクを補完するためにテキストデータに依存するか、オブジェクトと一般的なエンティティのみをリンクするが、大量の画像データで名前付きエンティティリンクを実行できない。
本稿では、入力が画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(vnel)タスクを検討する。
そのタスクは、画像中の興味あるオブジェクト(すなわち、ビジュアルエンティティの参照)を特定し、KB内の対応する名前のエンティティにリンクすることである。
各エンティティはKBにリッチな視覚的・テキスト的情報を含むことが多いため、視覚的・視覚的エンティティリンク(V2VEL)、視覚的・テキスト的エンティティリンク(V2TEL)、視覚的・テキスト的エンティティリンク(V2VEL)という3つのサブタスクを提案する。
さらに, WIKIPerson という高品質な視覚的人物リンクデータセットを提案する。
WIKIPersonに基づいて,各サブタスクの解に対する一連のベースラインアルゴリズムを構築し,提案したデータセットの品質とベースライン手法の有効性を検証する実験を行う。
本研究は今後,VNELに関するさらなる研究の募集に役立てられるものと期待している。
コードとデータセットはhttps://github.com/ict-bigdatalab/VNELで公開されている。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking [16.728006492769666]
マルチモーダルなエンティティリンクのためのDWE+を提案する。
DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。
Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。
論文 参考訳(メタデータ) (2024-04-07T05:56:42Z) - Table and Image Generation for Investigating Knowledge of Entities in
Pre-trained Vision and Language Models [31.865208971014336]
本稿では,自然言語から取得したエンティティに関する知識が,視覚&言語(V&L)モデルでどのように保持されているかを検証するタスクを提案する。
第1はエンティティとその関連画像に関する知識を含むテーブルを生成し、第2はキャプションを持つエンティティから画像を生成する。
提案したタスクを実行するために、ウィキペディアの約20万のインフォボックスからウィキペディアテーブルと画像生成(WikiTIG)データセットを作成しました。
論文 参考訳(メタデータ) (2023-06-03T14:01:54Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Multimodal Entity Linking for Tweets [6.439761523935613]
マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。
我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。
次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-04-07T16:40:23Z) - Visual Pivoting for (Unsupervised) Entity Alignment [93.82387952905756]
本研究は、異種知識グラフ(KGs)におけるエンティティの整列のための視覚的意味表現の使用について研究する。
提案した新しいアプローチであるEVAは、クロスグラフエンティティアライメントのための強い信号を提供する包括的エンティティ表現を生成する。
論文 参考訳(メタデータ) (2020-09-28T20:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。