論文の概要: Beyond Generic: Enhancing Image Captioning with Real-World Knowledge
using Vision-Language Pre-Training Model
- arxiv url: http://arxiv.org/abs/2308.01126v1
- Date: Wed, 2 Aug 2023 13:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:02:09.533287
- Title: Beyond Generic: Enhancing Image Captioning with Real-World Knowledge
using Vision-Language Pre-Training Model
- Title(参考訳): beyond generic: 視覚言語事前学習モデルを用いた実世界知識による画像キャプションの拡張
- Authors: Kanzhi Cheng, Wenpo Song, Zheng Ma, Wenhao Zhu, Zixuan Zhu, Jianbing
Zhang
- Abstract要約: 現在のキャプションアプローチは、現実世界の知識、例えば名前付きエンティティやコンテキスト情報を持たない、正しいが「汎用的な」記述を生成する傾向がある。
微調整時の事前学習知識の保持を可能にする知識誘導リプレイ(K-Replay)を提案する。
我々はランドマーク、有名ブランド、特別食品、映画キャラクタの知識を含む新しいキャプションベンチマーク「ノウキャップ」を構築した。
- 参考スコア(独自算出の注目度): 4.701883351311994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current captioning approaches tend to generate correct but "generic"
descriptions that lack real-world knowledge, e.g., named entities and
contextual information. Considering that Vision-Language Pre-Training (VLP)
models master massive such knowledge from large-scale web-harvested data, it is
promising to utilize the generalizability of VLP models to incorporate
knowledge into image descriptions. However, using VLP models faces challenges:
zero-shot inference suffers from knowledge hallucination that leads to
low-quality descriptions, but the generic bias in downstream task fine-tuning
hinders the VLP model from expressing knowledge. To address these concerns, we
propose a simple yet effective method called Knowledge-guided Replay
(K-Replay), which enables the retention of pre-training knowledge during
fine-tuning. Our approach consists of two parts: (1) a knowledge prediction
task on automatically collected replay exemplars to continuously awaken the VLP
model's memory about knowledge, thus preventing the model from collapsing into
the generic pattern; (2) a knowledge distillation constraint to improve the
faithfulness of generated descriptions hence alleviating the knowledge
hallucination. To evaluate knowledge-enhanced descriptions, we construct a
novel captioning benchmark KnowCap, containing knowledge of landmarks, famous
brands, special foods and movie characters. Experimental results show that our
approach effectively incorporates knowledge into descriptions, outperforming
strong VLP baseline by 20.9 points (78.7->99.6) in CIDEr score and 20.5
percentage points (34.0%->54.5%) in knowledge recognition accuracy. Our code
and data is available at https://github.com/njucckevin/KnowCap.
- Abstract(参考訳): 現在のキャプションアプローチは、現実世界の知識、例えば名前付きエンティティやコンテキスト情報を持たない、正しいが「汎用的な」記述を生成する傾向がある。
Vision-Language Pre-Training (VLP)モデルが、大規模なWebハーベストデータからそのような知識を習得することを考えると、VLPモデルの一般化可能性を活用して、知識を画像記述に組み込むことが期待できる。
ゼロショット推論は、低品質の記述につながる知識幻覚に悩まされるが、下流タスクの微調整における一般的なバイアスは、VLPモデルが知識を表現することを妨げている。
これらの問題に対処するため,我々は,微調整時の事前学習知識の保持を可能にする知識誘導リプレイ(k-replay)と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,(1)VLPモデルの知識に関する記憶を連続的に覚醒させるために,自動で収集したリプレイにおける知識予測タスクと,(2)生成した記述の忠実さを向上し,知識幻覚を緩和する知識蒸留の2つの部分から構成される。
知識に富んだ記述を評価するため,ランドマーク,有名ブランド,特別食材,映画キャラクタの知識を含む新しいキャプションベンチマーク「ノウキャップ」を構築した。
実験の結果,CIDErでは20.9ポイント (78.7->99.6) , 知識認識精度では20.5ポイント (34.0%->54.5%) の強いVLPベースラインよりも優れていた。
私たちのコードとデータはhttps://github.com/njucckevin/knowcap.comから入手できます。
関連論文リスト
- Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? [34.27319941609499]
本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。
本報告では,最初のトークンのロジット分布は命令に応答するかどうかを決定するのに十分な情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-03-14T02:25:35Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - DictBERT: Dictionary Description Knowledge Enhanced Language Model
Pre-training via Contrastive Learning [18.838291575019504]
事前訓練された言語モデル(PLM)は、知識駆動タスクを扱う際に知識が不足していることが示されている。
辞書知識で PLM を強化する新しい手法である textbfDictBERT を提案する。
我々は、NER、関係抽出、CommonsenseQA、OpenBookQA、GLUEなど、さまざまな知識駆動型および言語理解タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-01T06:43:19Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Incorporating Explicit Knowledge in Pre-trained Language Models for
Passage Re-ranking [32.22697200984185]
本稿では,新しい知識グラフ蒸留法を提案し,問合せと通過の橋渡しとして知識メタグラフを得る。
PLMをテキストエンコーダとして,知識メタグラフを知識エンコーダとして,グラフニューラルネットワークとして採用した。
論文 参考訳(メタデータ) (2022-04-25T14:07:28Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。