論文の概要: PGMEL: Policy Gradient-based Generative Adversarial Network for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2510.02726v1
- Date: Fri, 03 Oct 2025 05:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.270978
- Title: PGMEL: Policy Gradient-based Generative Adversarial Network for Multimodal Entity Linking
- Title(参考訳): PGMEL:マルチモーダルエンティティリンクのためのポリシーグラディエントに基づくジェネレータネットワーク
- Authors: KM Pooja, Cheng Long, Aixin Sun,
- Abstract要約: ポリシー勾配に基づくマルチモーダルエンティティリンク(PGMEL)のための生成逆ネットワークを提案する。
Wiki-MEL、Richpedia-MEL、WikiDiverseのデータセットに基づく実験の結果、PGMELは挑戦的な負のサンプルを選択して意味のある表現を学習することを示した。
- 参考スコア(独自算出の注目度): 32.06340010145227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of entity linking, which involves associating mentions with their respective entities in a knowledge graph, has received significant attention due to its numerous potential applications. Recently, various multimodal entity linking (MEL) techniques have been proposed, targeted to learn comprehensive embeddings by leveraging both text and vision modalities. The selection of high-quality negative samples can potentially play a crucial role in metric/representation learning. However, to the best of our knowledge, this possibility remains unexplored in existing literature within the framework of MEL. To fill this gap, we address the multimodal entity linking problem in a generative adversarial setting where the generator is responsible for generating high-quality negative samples, and the discriminator is assigned the responsibility for the metric learning tasks. Since the generator is involved in generating samples, which is a discrete process, we optimize it using policy gradient techniques and propose a policy gradient-based generative adversarial network for multimodal entity linking (PGMEL). Experimental results based on Wiki-MEL, Richpedia-MEL and WikiDiverse datasets demonstrate that PGMEL learns meaningful representation by selecting challenging negative samples and outperforms state-of-the-art methods.
- Abstract(参考訳): 知識グラフ内の各エンティティに言及を関連付けることを含むエンティティリンクのタスクは、その多くの潜在的な応用により、大きな注目を集めている。
近年,テキストと視覚の両方のモダリティを活用して包括的埋め込みを学習することを目的とした,様々なマルチモーダル・エンティティ・リンク(MEL)技術が提案されている。
高品質な陰性サンプルの選択は、計量/表現学習において重要な役割を果たす可能性がある。
しかし、我々の知る限りでは、この可能性はMELの枠組みにおける既存の文献では未解明のままである。
このギャップを埋めるために、生成元が高品質な負のサンプルを生成する責任を負う生成逆条件におけるマルチモーダルなエンティティリンク問題に対処し、計量学習タスクの責任を判別器に割り当てる。
生成元は離散的なプロセスであるサンプルの生成に関与しているため、ポリシー勾配法を用いて最適化し、マルチモーダルエンティティリンク(PGMEL)のためのポリシー勾配に基づく生成逆ネットワークを提案する。
Wiki-MEL、Richpedia-MEL、WikiDiverseのデータセットに基づく実験の結果、PGMELは挑戦的な負のサンプルを選択して意味のある表現を学習し、最先端の手法より優れていることが示された。
関連論文リスト
- Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation [37.22528391940295]
本稿では,JD-CCL(Jaccard Distance-based Contrastive Learning)を提案する。
参照やエンティティ間の視覚的モダリティの変化による制約を解決するために,新しいCVaCPT(Con Visual-aid Controllable Patch Transform)を提案する。
論文 参考訳(メタデータ) (2025-01-24T01:35:10Z) - A Mutual Information Perspective on Multiple Latent Variable Generative Models for Positive View Generation [38.44755687012033]
画像生成において、Multiple Latent Variable Generative Models (MLVGM) は複数の潜伏変数を用いて最終像を徐々に形成する。
本稿では,Mutual Information (MI) を指標として,各潜伏変数の寄与度を定量化する新しいフレームワークを提案する。
MLVGMの階層変数と非絡み合い変数を活用することで,実画像データを必要としない多様で意味のあるビューを生成する。
論文 参考訳(メタデータ) (2025-01-23T14:46:38Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - WikiDiverse: A Multimodal Entity Linking Dataset with Diversified
Contextual Topics and Entity Types [25.569170440376165]
MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。
WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。
WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
論文 参考訳(メタデータ) (2022-04-13T12:52:40Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。