論文の概要: Towards Language-guided Visual Recognition via Dynamic Convolutions
- arxiv url: http://arxiv.org/abs/2110.08797v2
- Date: Thu, 14 Sep 2023 13:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 20:10:35.780742
- Title: Towards Language-guided Visual Recognition via Dynamic Convolutions
- Title(参考訳): 動的畳み込みによる言語誘導視覚認識
- Authors: Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Yongjian Wu, Yue Gao, Rongrong Ji
- Abstract要約: 言語依存型畳み込み(LaConv)と呼ばれる新しいマルチモーダル畳み込みモジュールを提案する。
我々はLaConvNetと呼ばれる最初の完全な言語駆動の畳み込みネットワークを構築し、このネットワークは1つの前方構造における視覚的認識とマルチモーダル推論を統一することができる。
- 参考スコア(独自算出の注目度): 96.71539444139545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we are committed to establishing an unified and end-to-end
multi-modal network via exploring the language-guided visual recognition. To
approach this target, we first propose a novel multi-modal convolution module
called Language-dependent Convolution (LaConv). Its convolution kernels are
dynamically generated based on natural language information, which can help
extract differentiated visual features for different multi-modal examples.
Based on the LaConv module, we further build the first fully language-driven
convolution network, termed as LaConvNet, which can unify the visual
recognition and multi-modal reasoning in one forward structure. To validate
LaConv and LaConvNet, we conduct extensive experiments on four benchmark
datasets of two vision-and-language tasks, i.e., visual question answering
(VQA) and referring expression comprehension (REC). The experimental results
not only shows the performance gains of LaConv compared to the existing
multi-modal modules, but also witness the merits of LaConvNet as an unified
network, including compact network, high generalization ability and excellent
performance, e.g., +4.7% on RefCOCO+.
- Abstract(参考訳): 本稿では,言語誘導型視覚認識の探索を通じて,統合型・エンドツーエンドのマルチモーダルネットワークの構築を約束する。
そこで我々はまず,Language-dependent Convolution (LaConv)と呼ばれる新しいマルチモーダル畳み込みモジュールを提案する。
畳み込みカーネルは自然言語情報に基づいて動的に生成され、異なるマルチモーダルの例に対して視覚的特徴を抽出するのに役立つ。
laconvモジュールに基づいて,1つのフォワード構造における視覚認識とマルチモーダル推論を統一する,laconvnetと呼ばれる,言語駆動型畳み込みネットワークを新たに構築する。
LaConvとLaConvNetを検証するために、視覚的質問応答(VQA)と表現理解(REC)という2つの視覚・言語的タスクの4つのベンチマークデータセットについて広範な実験を行った。
実験結果は、既存のマルチモーダルモジュールと比較してLaConvの性能向上を示すだけでなく、コンパクトネットワーク、高一般化能力、優れたパフォーマンス(RefCOCO+の+4.7%)を含む統一ネットワークとしてのLaConvNetのメリットも示した。
関連論文リスト
- All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。