論文の概要: Refined Vision-Language Modeling for Fine-grained Multi-modal
Pre-training
- arxiv url: http://arxiv.org/abs/2303.05313v2
- Date: Sat, 6 May 2023 15:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 21:04:33.188905
- Title: Refined Vision-Language Modeling for Fine-grained Multi-modal
Pre-training
- Title(参考訳): 細粒度多モード事前学習のための精細ビジョンランゲージモデリング
- Authors: Lisai Zhang, Qingcai Chen, Zhijian Chen, Yunpeng Han, Zhonghua Li,
Zhao Cao
- Abstract要約: オブジェクトアノテーションに基づくきめ細かい監督は、視覚と言語の事前学習に広く使われている。
実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常、画像キャプチャフォーマットで、粗いきめ細かい監視しか提供しません。
- 参考スコア(独自算出の注目度): 12.760340242744313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained supervision based on object annotations has been widely used for
vision and language pre-training (VLP). However, in real-world application
scenarios, aligned multi-modal data is usually in the image-caption format,
which only provides coarse-grained supervision. It is not only cost-expensive
but also compute-expensive to collect object annotations and build object
annotation pre-extractor for different scenarios. In this paper, we propose a
fine-grained VLP scheme without object annotations from the linguistic
perspective. First, we propose a homonym sentence rewriting (HSR) algorithm to
provide token-level supervision. The algorithm replaces a
verb/noun/adjective/quantifier word of the caption with its homonyms from
WordNet. Correspondingly, we propose refined vision-language modeling (RVLM)
framework to exploit the token-level supervision. Three refined tasks, i.e.,
refined image-text contrastive (RITC), refined image-text matching (RITM), and
replace language modeling (RLM) are proposed to learn the fine-grained
alignment. Extensive experiments on several downstream tasks demonstrate the
superior performance of the proposed method.
- Abstract(参考訳): オブジェクトアノテーションに基づくきめ細かい監督はビジョンと言語事前学習(vlp)に広く使われている。
しかしながら、現実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常はイメージキャプチャフォーマットであり、粒度の粗い監視のみを提供する。
さまざまなシナリオに対するオブジェクトアノテーションの収集とオブジェクトアノテーションの事前抽出を行うのは、コストの増大だけでなく、コンピュート・コンピュート・エクスセンティブでもある。
本稿では,言語学的視点からオブジェクトアノテーションを含まない細粒度のVLPスキームを提案する。
まず,トークンレベルの監視を行うために,同義語文書き換え(HSR)アルゴリズムを提案する。
このアルゴリズムは、字幕の動詞/名詞/形容詞/量子化語をWordNetの同義語に置き換える。
これに対応して,トークンレベルの監視を生かした改良型視覚言語モデリング(RVLM)フレームワークを提案する。
細粒度アライメントを学ぶために,改良された3つのタスク,すなわちrefineed image-text contrastive (ritc)、refineed image-text matching (ritm)、replace language modeling (rlm)が提案されている。
複数の下流タスクに関する広範囲な実験により,提案手法の優れた性能が示された。
関連論文リスト
- Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。