論文の概要: Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation
- arxiv url: http://arxiv.org/abs/2501.14166v1
- Date: Fri, 24 Jan 2025 01:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:11.556736
- Title: Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation
- Title(参考訳): ジャカード距離に基づく条件付きコントラスト学習とコンテキスト視覚拡張によるマルチモーダルエンティティリンクの強化
- Authors: Cong-Duy Nguyen, Xiaobao Wu, Thong Nguyen, Shuai Zhao, Khoi Le, Viet-Anh Nguyen, Feng Yichao, Anh Tuan Luu,
- Abstract要約: 本稿では,JD-CCL(Jaccard Distance-based Contrastive Learning)を提案する。
参照やエンティティ間の視覚的モダリティの変化による制約を解決するために,新しいCVaCPT(Con Visual-aid Controllable Patch Transform)を提案する。
- 参考スコア(独自算出の注目度): 37.22528391940295
- License:
- Abstract: Previous research on multimodal entity linking (MEL) has primarily employed contrastive learning as the primary objective. However, using the rest of the batch as negative samples without careful consideration, these studies risk leveraging easy features and potentially overlook essential details that make entities unique. In this work, we propose JD-CCL (Jaccard Distance-based Conditional Contrastive Learning), a novel approach designed to enhance the ability to match multimodal entity linking models. JD-CCL leverages meta-information to select negative samples with similar attributes, making the linking task more challenging and robust. Additionally, to address the limitations caused by the variations within the visual modality among mentions and entities, we introduce a novel method, CVaCPT (Contextual Visual-aid Controllable Patch Transform). It enhances visual representations by incorporating multi-view synthetic images and contextual textual representations to scale and shift patch representations. Experimental results on benchmark MEL datasets demonstrate the strong effectiveness of our approach.
- Abstract(参考訳): マルチモーダル・エンティティ・リンク(MEL)に関するこれまでの研究は、主にコントラスト学習を主目的として採用してきた。
しかしながら、残りのバッチを慎重に考慮せずに負のサンプルとして使用すると、これらの研究は簡単な特徴を活用するリスクがあり、エンティティをユニークなものにする重要な詳細を見落としてしまう可能性がある。
本研究では,JD-CCL(Jaccard Distance-based Conditional Contrastive Learning)を提案する。
JD-CCLはメタ情報を利用して、類似した属性を持つ負のサンプルを選択する。
また、参照やエンティティ間の視覚的モダリティの変化による制約に対処するため、CVaCPT(Contextual Visual-aid Controllable Patch Transform)という新しい手法を導入する。
マルチビュー合成画像とコンテキストテキスト表現を統合して、パッチ表現のスケールとシフトを拡大することで、視覚表現を強化する。
MELデータセットのベンチマーク実験により,提案手法の有効性が示された。
関連論文リスト
- Contextual Interaction via Primitive-based Adversarial Training For Compositional Zero-shot Learning [23.757252768668497]
合成ゼロショット学習(CZSL)は、既知の属性オブジェクト対を通じて新規な合成を識別することを目的としている。
CZSLタスクの最大の課題は、属性とオブジェクトの視覚的プリミティブの間の複雑な相互作用によって導入された大きな相違にある。
本稿では,モデルに依存しない原始的適応学習(PBadv)手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:18:30Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - On Mutual Information in Contrastive Learning for Visual Representations [19.136685699971864]
視覚における「対照的」学習アルゴリズムは、伝達タスクにおいて非常によく機能する表現を学ぶために示されている。
このアルゴリズムの族は、画像の2つ以上の「ビュー」間の相互情報の低境界を最大化する。
負のサンプルとビューの選択は、これらのアルゴリズムの成功に不可欠である。
論文 参考訳(メタデータ) (2020-05-27T04:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。