論文の概要: Enhanced Modality Transition for Image Captioning
- arxiv url: http://arxiv.org/abs/2102.11526v1
- Date: Tue, 23 Feb 2021 07:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 03:50:38.833616
- Title: Enhanced Modality Transition for Image Captioning
- Title(参考訳): 画像キャプションのための拡張モダリティ遷移
- Authors: Ziwei Wang, Yadan Luo and Zi Huang
- Abstract要約: MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 51.72997126838352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning model is a cross-modality knowledge discovery task, which
targets at automatically describing an image with an informative and coherent
sentence. To generate the captions, the previous encoder-decoder frameworks
directly forward the visual vectors to the recurrent language model, forcing
the recurrent units to generate a sentence based on the visual features.
Although these sentences are generally readable, they still suffer from the
lack of details and highlights, due to the fact that the substantial gap
between the image and text modalities is not sufficiently addressed. In this
work, we explicitly build a Modality Transition Module (MTM) to transfer visual
features into semantic representations before forwarding them to the language
model. During the training phase, the modality transition network is optimised
by the proposed modality loss, which compares the generated preliminary textual
encodings with the target sentence vectors from a pre-trained text
auto-encoder. In this way, the visual vectors are transited into the textual
subspace for more contextual and precise language generation. The novel MTM can
be incorporated into most of the existing methods. Extensive experiments have
been conducted on the MS-COCO dataset demonstrating the effectiveness of the
proposed framework, improving the performance by 3.4% comparing to the
state-of-the-arts.
- Abstract(参考訳): 画像キャプションモデルは、情報的かつコヒーレントな文で画像を自動的に記述するクロスモダリティ知識発見タスクである。
キャプションを生成するために、以前のエンコーダ・デコーダフレームワークは、ビジュアルベクトルをリカレント言語モデルに直接転送し、リカレントユニットは、視覚特徴に基づいて文を生成する。
これらの文は一般に読みやすいが、画像とテキストのモダリティの実質的なギャップが十分に解決されていないため、詳細やハイライトの欠如に悩まされている。
本研究では,視覚特徴を言語モデルに転送する前に意味表現に転送するモーダリティ遷移モジュール(mtm)を明示的に構築する。
トレーニングフェーズでは、提案したモダリティ損失によりモダリティ遷移ネットワークが最適化され、生成された予備テキストエンコーディングと、事前訓練されたテキスト自動エンコーダのターゲット文ベクトルを比較する。
このようにして、視覚ベクトルはより文脈的かつ正確な言語生成のためにテキストサブ空間に転送される。
この新しいMTMは、既存のほとんどの方法に組み込むことができます。
提案したフレームワークの有効性を実証したMS-COCOデータセットの大規模な実験が行われ、最先端技術と比較して3.4%性能が向上した。
関連論文リスト
- Unified Language-Vision Pretraining with Dynamic Discrete Visual
Tokenization [52.845032517147644]
我々は、非言語的な画像をLLMで読める外国語のような個別のトークン列に変換する視覚的トークン化器を作成する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像の内容から変化する動的シーケンス長もサポートする。
Webスケールの画像テキストコーパスで事前トレーニングされたLaVITは、印象的なマルチモーダル理解機能を備えている。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Masked Visual Reconstruction in Language Semantic Space [38.43966132249977]
Masked visual Reconstruction In Language semantic Space (RILS) pre-training frameworkについて述べる。
RILSは、視覚のみの信号を意味的に意味のあるMIM再構成ターゲットとしてパッチ文の確率に変換する。
本手法は,下流の分類,検出,セグメンテーションにおける高度な転送性を示す。
論文 参考訳(メタデータ) (2023-01-17T15:32:59Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。