Fugu-MT 論文翻訳(概要): Visual Named Entity Linking: A New Dataset and A Baseline

論文の概要: Visual Named Entity Linking: A New Dataset and A Baseline

arxiv url: http://arxiv.org/abs/2211.04872v1
Date: Wed, 9 Nov 2022 13:27:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 16:11:38.241382
Title: Visual Named Entity Linking: A New Dataset and A Baseline
Title（参考訳）: Visual Named Entity Linking: 新しいデータセットとベースライン
Authors: Wenxiang Sun, Yixing Fan, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng
Abstract要約: 入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。 WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
参考スコア（独自算出の注目度）: 61.38231023490981
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Entity Linking (VEL) is a task to link regions of images with their corresponding entities in Knowledge Bases (KBs), which is beneficial for many computer vision tasks such as image retrieval, image caption, and visual question answering. While existing tasks in VEL either rely on textual data to complement a multi-modal linking or only link objects with general entities, which fails to perform named entity linking on large amounts of image data. In this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task, where the input only consists of an image. The task is to identify objects of interest (i.e., visual entity mentions) in images and link them to corresponding named entities in KBs. Since each entity often contains rich visual and textual information in KBs, we thus propose three different sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL). In addition, we present a high-quality human-annotated visual person linking dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of baseline algorithms for the solution of each sub-task, and conduct experiments to verify the quality of proposed datasets and the effectiveness of baseline methods. We envision this work to be helpful for soliciting more works regarding VNEL in the future. The codes and datasets are publicly available at https://github.com/ict-bigdatalab/VNEL.
Abstract（参考訳）: 視覚エンティティリンク(英語: visual entity link、vel)は、画像の領域とその対応するエンティティを知識ベース(kbs)にリンクするタスクであり、画像検索、画像キャプション、視覚的質問応答など多くのコンピュータビジョンタスクに有用である。 velの既存のタスクは、マルチモーダルリンクを補完するためにテキストデータに依存するか、オブジェクトと一般的なエンティティのみをリンクするが、大量の画像データで名前付きエンティティリンクを実行できない。本稿では、入力が画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(vnel)タスクを検討する。そのタスクは、画像中の興味あるオブジェクト(すなわち、ビジュアルエンティティの参照)を特定し、KB内の対応する名前のエンティティにリンクすることである。各エンティティはKBにリッチな視覚的・テキスト的情報を含むことが多いため、視覚的・視覚的エンティティリンク(V2VEL)、視覚的・テキスト的エンティティリンク(V2TEL)、視覚的・テキスト的エンティティリンク(V2VEL)という3つのサブタスクを提案する。さらに, WIKIPerson という高品質な視覚的人物リンクデータセットを提案する。 WIKIPersonに基づいて,各サブタスクの解に対する一連のベースラインアルゴリズムを構築し,提案したデータセットの品質とベースライン手法の有効性を検証する実験を行う。本研究は今後,VNELに関するさらなる研究の募集に役立てられるものと期待している。コードとデータセットはhttps://github.com/ict-bigdatalab/VNELで公開されている。

関連論文リスト

Jodi: Unification of Visual Generation and Understanding via Joint Modeling [72.2478082170191]
視覚生成と理解を統一する拡散フレームワークであるJodiを提案する。 Jodiは、ロールスイッチ機構とともに線形拡散変圧器上に構築されている。我々は20万の高品質な画像を含むJoint-1.6Mデータセットを提示する。
論文参考訳（メタデータ） (2025-05-25T10:40:52Z)
Multimodal Reference Visual Grounding [24.047088603900644]
ビジュアルグラウンドティングは、言語表現に基づく画像からオブジェクトを検出することに焦点を当てている。近年のLVLM(Large Vision-Language Models)は、視覚的接地性能が著しく向上している。 MRVG(Multimodal Reference Visual Grounding)と呼ばれる新しいタスクを導入する。提案手法は,最先端のLVLMと比較して,視覚的グラウンドディング性能が優れていることを示す。
論文参考訳（メタデータ） (2025-04-02T00:19:05Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
VP-MEL: Visual Prompts Guided Multimodal Entity Linking [16.463229055333407]
MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。既存のMEL手法は、しばしば検索手段として言及された単語を頼りにしており、画像とテキストの両方からの情報を効果的に活用する能力を制限する。我々は,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするIIERというフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-09T18:06:39Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking [16.728006492769666]
マルチモーダルなエンティティリンクのためのDWE+を提案する。 DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。 Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。
論文参考訳（メタデータ） (2024-04-07T05:56:42Z)
Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models [31.865208971014336]
本稿では,自然言語から取得したエンティティに関する知識が,視覚&言語(V&L)モデルでどのように保持されているかを検証するタスクを提案する。第1はエンティティとその関連画像に関する知識を含むテーブルを生成し、第2はキャプションを持つエンティティから画像を生成する。提案したタスクを実行するために、ウィキペディアの約20万のインフォボックスからウィキペディアテーブルと画像生成(WikiTIG)データセットを作成しました。
論文参考訳（メタデータ） (2023-06-03T14:01:54Z)
Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-07-26T05:50:41Z)
Multimodal Entity Linking for Tweets [6.439761523935613]
マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
論文参考訳（メタデータ） (2021-04-07T16:40:23Z)
Visual Pivoting for (Unsupervised) Entity Alignment [93.82387952905756]
本研究は、異種知識グラフ(KGs)におけるエンティティの整列のための視覚的意味表現の使用について研究する。提案した新しいアプローチであるEVAは、クロスグラフエンティティアライメントのための強い信号を提供する包括的エンティティ表現を生成する。
論文参考訳（メタデータ） (2020-09-28T20:09:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。