論文の概要: Enhanced Modality Transition for Image Captioning
- arxiv url: http://arxiv.org/abs/2102.11526v1
- Date: Tue, 23 Feb 2021 07:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 03:50:38.833616
- Title: Enhanced Modality Transition for Image Captioning
- Title(参考訳): 画像キャプションのための拡張モダリティ遷移
- Authors: Ziwei Wang, Yadan Luo and Zi Huang
- Abstract要約: MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 51.72997126838352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning model is a cross-modality knowledge discovery task, which
targets at automatically describing an image with an informative and coherent
sentence. To generate the captions, the previous encoder-decoder frameworks
directly forward the visual vectors to the recurrent language model, forcing
the recurrent units to generate a sentence based on the visual features.
Although these sentences are generally readable, they still suffer from the
lack of details and highlights, due to the fact that the substantial gap
between the image and text modalities is not sufficiently addressed. In this
work, we explicitly build a Modality Transition Module (MTM) to transfer visual
features into semantic representations before forwarding them to the language
model. During the training phase, the modality transition network is optimised
by the proposed modality loss, which compares the generated preliminary textual
encodings with the target sentence vectors from a pre-trained text
auto-encoder. In this way, the visual vectors are transited into the textual
subspace for more contextual and precise language generation. The novel MTM can
be incorporated into most of the existing methods. Extensive experiments have
been conducted on the MS-COCO dataset demonstrating the effectiveness of the
proposed framework, improving the performance by 3.4% comparing to the
state-of-the-arts.
- Abstract(参考訳): 画像キャプションモデルは、情報的かつコヒーレントな文で画像を自動的に記述するクロスモダリティ知識発見タスクである。
キャプションを生成するために、以前のエンコーダ・デコーダフレームワークは、ビジュアルベクトルをリカレント言語モデルに直接転送し、リカレントユニットは、視覚特徴に基づいて文を生成する。
これらの文は一般に読みやすいが、画像とテキストのモダリティの実質的なギャップが十分に解決されていないため、詳細やハイライトの欠如に悩まされている。
本研究では,視覚特徴を言語モデルに転送する前に意味表現に転送するモーダリティ遷移モジュール(mtm)を明示的に構築する。
トレーニングフェーズでは、提案したモダリティ損失によりモダリティ遷移ネットワークが最適化され、生成された予備テキストエンコーディングと、事前訓練されたテキスト自動エンコーダのターゲット文ベクトルを比較する。
このようにして、視覚ベクトルはより文脈的かつ正確な言語生成のためにテキストサブ空間に転送される。
この新しいMTMは、既存のほとんどの方法に組み込むことができます。
提案したフレームワークの有効性を実証したMS-COCOデータセットの大規模な実験が行われ、最先端技術と比較して3.4%性能が向上した。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Masked Visual Reconstruction in Language Semantic Space [38.43966132249977]
Masked visual Reconstruction In Language semantic Space (RILS) pre-training frameworkについて述べる。
RILSは、視覚のみの信号を意味的に意味のあるMIM再構成ターゲットとしてパッチ文の確率に変換する。
本手法は,下流の分類,検出,セグメンテーションにおける高度な転送性を示す。
論文 参考訳(メタデータ) (2023-01-17T15:32:59Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。