論文の概要: Replacement as a Self-supervision for Fine-grained Vision-language
Pre-training
- arxiv url: http://arxiv.org/abs/2303.05313v1
- Date: Thu, 9 Mar 2023 15:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:34:11.215250
- Title: Replacement as a Self-supervision for Fine-grained Vision-language
Pre-training
- Title(参考訳): きめ細かな視覚言語事前学習のための自己スーパービジョンとしての代替
- Authors: Lisai Zhang, Qingcai Chen, Zhijian Chen, Yunpeng Han, Zhonghua Li,
Zhao Cao
- Abstract要約: オブジェクトアノテーションに基づくきめ細かい監督は、視覚と言語の事前学習に広く使われている。
本稿では,オブジェクトアノテーションを代用しない微細な自己超越信号を提案する。
- 参考スコア(独自算出の注目度): 12.760340242744313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained supervision based on object annotations has been widely used for
vision and language pre-training (VLP). However, in real-world application
scenarios, aligned multi-modal data is usually in the image-caption format,
which only provides coarse-grained supervision. It is cost-expensive to collect
object annotations and build object annotation pre-extractor for different
scenarios. In this paper, we propose a fine-grained self-supervision signal
without object annotations from a replacement perspective. First, we propose a
homonym sentence rewriting (HSR) algorithm to provide token-level supervision.
The algorithm replaces a verb/noun/adjective/quantifier word of the caption
with its homonyms from WordNet. Correspondingly, we propose a replacement
vision-language modeling (RVLM) framework to exploit the token-level
supervision. Two replaced modeling tasks, i.e., replaced language contrastive
(RLC) and replaced language modeling (RLM), are proposed to learn the
fine-grained alignment. Extensive experiments on several downstream tasks
demonstrate the superior performance of the proposed method.
- Abstract(参考訳): オブジェクトアノテーションに基づくきめ細かい監督はビジョンと言語事前学習(vlp)に広く使われている。
しかしながら、現実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常はイメージキャプチャフォーマットであり、粒度の粗い監視のみを提供する。
さまざまなシナリオでオブジェクトアノテーションを収集し、オブジェクトアノテーションを事前抽出するコストがかかる。
本稿では,オブジェクトのアノテーションを伴わない細粒度自己スーパービジョン信号を提案する。
まず,トークンレベルの監視を行うために,同義語文書き換え(HSR)アルゴリズムを提案する。
このアルゴリズムは、字幕の動詞/名詞/形容詞/量子化語をWordNetの同義語に置き換える。
それに対応して,トークンレベルの監視を生かした視覚言語モデリング(RVLM)フレームワークを提案する。
細粒度アライメントを学ぶために,代替言語コントラスト(rlc)と代替言語モデリング(rlm)という2つのモデリングタスクが提案されている。
複数の下流タスクに関する広範囲な実験により,提案手法の優れた性能が示された。
関連論文リスト
- Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。
D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。