論文の概要: Table and Image Generation for Investigating Knowledge of Entities in
Pre-trained Vision and Language Models
- arxiv url: http://arxiv.org/abs/2306.02115v2
- Date: Wed, 26 Jul 2023 02:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:23:55.264051
- Title: Table and Image Generation for Investigating Knowledge of Entities in
Pre-trained Vision and Language Models
- Title(参考訳): 事前学習された視覚と言語モデルにおけるエンティティの知識調査のためのテーブルと画像生成
- Authors: Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
- Abstract要約: 本稿では,自然言語から取得したエンティティに関する知識が,視覚&言語(V&L)モデルでどのように保持されているかを検証するタスクを提案する。
第1はエンティティとその関連画像に関する知識を含むテーブルを生成し、第2はキャプションを持つエンティティから画像を生成する。
提案したタスクを実行するために、ウィキペディアの約20万のインフォボックスからウィキペディアテーブルと画像生成(WikiTIG)データセットを作成しました。
- 参考スコア(独自算出の注目度): 31.865208971014336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a table and image generation task to verify how the
knowledge about entities acquired from natural language is retained in Vision &
Language (V&L) models. This task consists of two parts: the first is to
generate a table containing knowledge about an entity and its related image,
and the second is to generate an image from an entity with a caption and a
table containing related knowledge of the entity. In both tasks, the model must
know the entities used to perform the generation properly. We created the
Wikipedia Table and Image Generation (WikiTIG) dataset from about 200,000
infoboxes in English Wikipedia articles to perform the proposed tasks. We
evaluated the performance on the tasks with respect to the above research
question using the V&L model OFA, which has achieved state-of-the-art results
in multiple tasks. Experimental results show that OFA forgets part of its
entity knowledge by pre-training as a complement to improve the performance of
image related tasks.
- Abstract(参考訳): 本稿では,自然言語から取得したエンティティに関する知識がvision & language(v&l)モデルに保持されているかを検証するための表と画像生成タスクを提案する。
このタスクは2つの部分で構成される: 1つはエンティティとその関連イメージに関する知識を含むテーブルを生成し、もう1つは、キャプションを持つエンティティから画像を生成すること、そして、そのエンティティに関する知識を含むテーブルである。
どちらのタスクでも、モデルは生成を適切に実行するために使用されるエンティティを知る必要があります。
提案したタスクを実行するために、約20万のインフォボックスからウィキペディアテーブルと画像生成(WikiTIG)データセットを作成しました。
複数のタスクで最新の結果を得たv&lモデルofaを用いて,上記の研究課題に対するタスクの性能評価を行った。
実験の結果,OFAは画像関連タスクの性能向上のための補完として,事前学習によってエンティティ知識の一部を忘れていることがわかった。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning [40.01197694624958]
我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-06-01T17:34:25Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Visual Named Entity Linking: A New Dataset and A Baseline [61.38231023490981]
入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。
本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。
WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
論文 参考訳(メタデータ) (2022-11-09T13:27:50Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。