論文の概要: Visual Named Entity Linking: A New Dataset and A Baseline
- arxiv url: http://arxiv.org/abs/2211.04872v1
- Date: Wed, 9 Nov 2022 13:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:11:38.241382
- Title: Visual Named Entity Linking: A New Dataset and A Baseline
- Title(参考訳): Visual Named Entity Linking: 新しいデータセットとベースライン
- Authors: Wenxiang Sun, Yixing Fan, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng
- Abstract要約: 入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。
本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。
WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
- 参考スコア(独自算出の注目度): 61.38231023490981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Entity Linking (VEL) is a task to link regions of images with their
corresponding entities in Knowledge Bases (KBs), which is beneficial for many
computer vision tasks such as image retrieval, image caption, and visual
question answering. While existing tasks in VEL either rely on textual data to
complement a multi-modal linking or only link objects with general entities,
which fails to perform named entity linking on large amounts of image data. In
this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task,
where the input only consists of an image. The task is to identify objects of
interest (i.e., visual entity mentions) in images and link them to
corresponding named entities in KBs. Since each entity often contains rich
visual and textual information in KBs, we thus propose three different
sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual
entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL).
In addition, we present a high-quality human-annotated visual person linking
dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of
baseline algorithms for the solution of each sub-task, and conduct experiments
to verify the quality of proposed datasets and the effectiveness of baseline
methods. We envision this work to be helpful for soliciting more works
regarding VNEL in the future. The codes and datasets are publicly available at
https://github.com/ict-bigdatalab/VNEL.
- Abstract(参考訳): 視覚エンティティリンク(英語: visual entity link、vel)は、画像の領域とその対応するエンティティを知識ベース(kbs)にリンクするタスクであり、画像検索、画像キャプション、視覚的質問応答など多くのコンピュータビジョンタスクに有用である。
velの既存のタスクは、マルチモーダルリンクを補完するためにテキストデータに依存するか、オブジェクトと一般的なエンティティのみをリンクするが、大量の画像データで名前付きエンティティリンクを実行できない。
本稿では、入力が画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(vnel)タスクを検討する。
そのタスクは、画像中の興味あるオブジェクト(すなわち、ビジュアルエンティティの参照)を特定し、KB内の対応する名前のエンティティにリンクすることである。
各エンティティはKBにリッチな視覚的・テキスト的情報を含むことが多いため、視覚的・視覚的エンティティリンク(V2VEL)、視覚的・テキスト的エンティティリンク(V2TEL)、視覚的・テキスト的エンティティリンク(V2VEL)という3つのサブタスクを提案する。
さらに, WIKIPerson という高品質な視覚的人物リンクデータセットを提案する。
WIKIPersonに基づいて,各サブタスクの解に対する一連のベースラインアルゴリズムを構築し,提案したデータセットの品質とベースライン手法の有効性を検証する実験を行う。
本研究は今後,VNELに関するさらなる研究の募集に役立てられるものと期待している。
コードとデータセットはhttps://github.com/ict-bigdatalab/VNELで公開されている。
関連論文リスト
- SnapNTell: Enhancing Entity-Centric Visual Question Answering with
Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。
データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。
提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文 参考訳(メタデータ) (2024-03-07T18:38:17Z) - VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph [2.45233156609155]
Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
論文 参考訳(メタデータ) (2023-09-24T11:19:13Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - Table and Image Generation for Investigating Knowledge of Entities in
Pre-trained Vision and Language Models [31.865208971014336]
本稿では,自然言語から取得したエンティティに関する知識が,視覚&言語(V&L)モデルでどのように保持されているかを検証するタスクを提案する。
第1はエンティティとその関連画像に関する知識を含むテーブルを生成し、第2はキャプションを持つエンティティから画像を生成する。
提案したタスクを実行するために、ウィキペディアの約20万のインフォボックスからウィキペディアテーブルと画像生成(WikiTIG)データセットを作成しました。
論文 参考訳(メタデータ) (2023-06-03T14:01:54Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Multimodal Entity Linking for Tweets [6.439761523935613]
マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。
我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。
次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-04-07T16:40:23Z) - Visual Pivoting for (Unsupervised) Entity Alignment [93.82387952905756]
本研究は、異種知識グラフ(KGs)におけるエンティティの整列のための視覚的意味表現の使用について研究する。
提案した新しいアプローチであるEVAは、クロスグラフエンティティアライメントのための強い信号を提供する包括的エンティティ表現を生成する。
論文 参考訳(メタデータ) (2020-09-28T20:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。