論文の概要: Learning to Collocate Visual-Linguistic Neural Modules for Image
Captioning
- arxiv url: http://arxiv.org/abs/2210.01338v2
- Date: Mon, 24 Apr 2023 02:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:48:05.017884
- Title: Learning to Collocate Visual-Linguistic Neural Modules for Image
Captioning
- Title(参考訳): 画像キャプションのための視覚言語ニューラルモジュールのコロケーション学習
- Authors: Xu Yang and Hanwang Zhang and Chongyang Gao and Jianfei Cai
- Abstract要約: 視覚言語ニューラルモジュール(LNCVM)の協調学習のための新しいイメージキャプタを提案する。
VQAで広く使われているニューラルモジュールネットワークとは異なり、視覚言語モジュールをコロケーションする作業はより困難である。
私たちのCVLNMはより効果的です。
新しい最先端の129.5 CIDEr-Dを達成し、より堅牢である。
MS-COCOデータセットの実験では、CVLNMの方が効果的であることが示されている。
新しい最先端129.5 CIDErの実現
- 参考スコア(独自算出の注目度): 80.59607794927363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans tend to decompose a sentence into different parts like \textsc{sth do
sth at someplace} and then fill each part with certain content. Inspired by
this, we follow the \textit{principle of modular design} to propose a novel
image captioner: learning to Collocate Visual-Linguistic Neural Modules
(CVLNM). Unlike the \re{widely used} neural module networks in VQA, where the
language (\ie, question) is fully observable, \re{the task of collocating
visual-linguistic modules is more challenging.} This is because the language is
only partially observable, for which we need to dynamically collocate the
modules during the process of image captioning. To sum up, we make the
following technical contributions to design and train our CVLNM: 1)
\textit{distinguishable module design} -- \re{four modules in the encoder}
including one linguistic module for function words and three visual modules for
different content words (\ie, noun, adjective, and verb) and another linguistic
one in the decoder for commonsense reasoning, 2) a self-attention based
\textit{module controller} for robustifying the visual reasoning, 3) a
part-of-speech based \textit{syntax loss} imposed on the module controller for
further regularizing the training of our CVLNM. Extensive experiments on the
MS-COCO dataset show that our CVLNM is more effective, \eg, achieving a new
state-of-the-art 129.5 CIDEr-D, and more robust, \eg, being less likely to
overfit to dataset bias and suffering less when fewer training samples are
available. Codes are available at \url{https://github.com/GCYZSL/CVLMN}
- Abstract(参考訳): 人間は、文章を \textsc{sth do sth at someplace} のような異なる部分に分解し、各部分を特定の内容で満たす傾向がある。
これに触発されて、我々は新しい画像キャプションを提案するために \textit{principle of modular design} に従う: 視覚言語的ニューラルモジュール(cvlnm)のコロケーションを学ぶ。
言語 (\ie, question) が完全に可観測である vqa の \re{widely used} ニューラルモジュールネットワークとは異なり、\re{the task of collocating visual-linguistic modules はより困難である。
これは、画像キャプションのプロセス中にモジュールを動的にコロケーションする必要があるため、言語が部分的に可観測性があるためです。
まとめると、CVLNMの設計と訓練に以下の技術貢献をする。
1) \textit{distinguishable module design} -- \re{four modules in the encoder} 関数語のための1つの言語モジュールと、異なるコンテンツ語(\ie、名詞、形容詞、動詞)のための3つの視覚モジュールと、コモンセンス推論のためのデコーダ内の他の言語モジュールを含む。
2) 視覚的推論を堅牢化するための自己注意に基づく \textit{module controller}
3) CVLNMのトレーニングをさらに規則化するためにモジュールコントローラに課される部分音声ベースの‘textit{syntax loss’。
MS-COCOデータセットの大規模な実験によると、CVLNMはより効果的で、新しい最先端の129.5 CIDEr-Dを達成し、より堅牢で、データセットバイアスに過度に適合せず、トレーニングサンプルが少ない場合の苦痛も少なくなります。
コードは \url{https://github.com/GCYZSL/CVLMN} で入手できる。
関連論文リスト
- MedUnA: Language guided Unsupervised Adaptation of Vision-Language Models for Medical Image Classification [14.725941791069852]
本稿では,2段階の学習:適応事前学習と教師なし学習を構成するアンダーラインMedical UnderlineUnsupervised UnderlineAdaptation (textttMedUnA)を提案する。
胸部X線像,眼底画像,皮膚病変画像の3種類のデータモダリティを用いたtextttMedUnA の評価を行った。
論文 参考訳(メタデータ) (2024-09-03T09:25:51Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - Explaining black box text modules in natural language with language
models [86.14329261605]
Blackbox" は、モジュールの入出力のみにアクセス可能であることを示している。
SASC」は、テキストモジュールを取り込み、モジュールの選択性に関する自然言語の説明と、その説明がどの程度信頼できるかのスコアを返す手法である。
言語刺激に対する個々のfMRIボクセルの反応について,SASCが説明を生成できることを示す。
論文 参考訳(メタデータ) (2023-05-17T00:29:18Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Learning to Discretely Compose Reasoning Module Networks for Video
Captioning [81.81394228898591]
ビデオキャプションのための新しい視覚的推論手法であるReasoning Module Networks (RMN)を提案する。
RMNには3つの高度なRM時間的推論と,Gumbel近似を用いた言語的損失によって訓練された動的かつ離散的なモジュールセレクタが採用されている。
論文 参考訳(メタデータ) (2020-07-17T15:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。