論文の概要: Multimodal Entity Tagging with Multimodal Knowledge Base
- arxiv url: http://arxiv.org/abs/2201.00693v1
- Date: Tue, 21 Dec 2021 15:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 15:49:15.394075
- Title: Multimodal Entity Tagging with Multimodal Knowledge Base
- Title(参考訳): マルチモーダル知識ベースを用いたマルチモーダルエンティティタグ
- Authors: Hao Peng, Hang Li, Lei Hou, Juanzi Li, Chao Qiao
- Abstract要約: マルチモーダル知識ベース(MKB)を用いたMET(Multimodal entity tagging)というタスクを提案する。
METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。
我々は広範な実験を行い、実験結果について分析する。
- 参考スコア(独自算出の注目度): 45.84732232595781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enhance research on multimodal knowledge base and multimodal information
processing, we propose a new task called multimodal entity tagging (MET) with a
multimodal knowledge base (MKB). We also develop a dataset for the problem
using an existing MKB. In an MKB, there are entities and their associated texts
and images. In MET, given a text-image pair, one uses the information in the
MKB to automatically identify the related entity in the text-image pair. We
solve the task by using the information retrieval paradigm and implement
several baselines using state-of-the-art methods in NLP and CV. We conduct
extensive experiments and make analyses on the experimental results. The
results show that the task is challenging, but current technologies can achieve
relatively high performance. We will release the dataset, code, and models for
future research.
- Abstract(参考訳): マルチモーダル知識ベースとマルチモーダル情報処理の研究を強化するために,マルチモーダル知識ベース(MKB)を用いたマルチモーダルエンティティタグ(MET)と呼ばれる新しいタスクを提案する。
また,既存のMKBを用いて問題のデータセットを作成する。
MKBにはエンティティとその関連したテキストとイメージがある。
METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。
我々は,情報検索パラダイムを用いて,NLPとCVの最先端手法を用いて,複数のベースラインを実装した。
広範な実験を行い,実験結果の分析を行う。
その結果,課題は難しいが,現在の技術は比較的高い性能を達成できることがわかった。
今後の研究のためにデータセット、コード、モデルをリリースします。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - WikiDiverse: A Multimodal Entity Linking Dataset with Diversified
Contextual Topics and Entity Types [25.569170440376165]
MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。
WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。
WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
論文 参考訳(メタデータ) (2022-04-13T12:52:40Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z) - MLM: A Benchmark Dataset for Multitask Learning with Multiple Languages
and Modalities [14.605385352491904]
データセットは、Webやデジタルアーカイブで遭遇したデータ上で複数のタスクを実行するアプリケーションを構築する研究者や開発者のために設計されている。
第2版では、EU加盟国の重み付けされたサンプルとともに、データの地理的表現サブセットを提供する。
論文 参考訳(メタデータ) (2020-08-14T14:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。