論文の概要: MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding
- arxiv url: http://arxiv.org/abs/2010.05379v1
- Date: Mon, 12 Oct 2020 00:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:30:40.526749
- Title: MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding
- Title(参考訳): maf: 弱教師付き句接地のためのマルチモーダルアライメントフレームワーク
- Authors: Qinxin Wang, Hao Tan, Sheng Shen, Michael W. Mahoney, Zhewei Yao
- Abstract要約: 本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 74.33171794972688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phrase localization is a task that studies the mapping from textual phrases
to regions of an image. Given difficulties in annotating phrase-to-object
datasets at scale, we develop a Multimodal Alignment Framework (MAF) to
leverage more widely-available caption-image datasets, which can then be used
as a form of weak supervision. We first present algorithms to model
phrase-object relevance by leveraging fine-grained visual representations and
visually-aware language representations. By adopting a contrastive objective,
our method uses information in caption-image pairs to boost the performance in
weakly-supervised scenarios. Experiments conducted on the widely-adopted
Flickr30k dataset show a significant improvement over existing
weakly-supervised methods. With the help of the visually-aware language
representations, we can also improve the previous best unsupervised result by
5.56%. We conduct ablation studies to show that both our novel model and our
weakly-supervised strategies significantly contribute to our strong results.
- Abstract(参考訳): フレーズローカライゼーションは、テキストのフレーズから画像の領域へのマッピングを研究するタスクである。
フレーズからオブジェクトまでのデータセットを大規模にアノテートすることの難しさを踏まえ,より広く利用可能なキャプションイメージデータセットを活用するためのマルチモーダルアライメントフレームワーク(MAF)を開発した。
まず, きめ細かな視覚的表現と視覚認識言語表現を活用し, 句・対象関係をモデル化するアルゴリズムを提案する。
コントラスト的な目的を取り入れることで,キャプションとイメージのペアの情報を弱教師付きシナリオの性能向上に活用する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
視覚的に認識される言語表現の助けを借りて、以前の最高の教師なしの結果を5.56%改善できる。
我々は,新しいモデルと弱い教師付き戦略の両方が強い結果に大きく寄与することを示すため,アブレーション研究を行う。
関連論文リスト
- Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。