論文の概要: Visually Grounded Compound PCFGs
- arxiv url: http://arxiv.org/abs/2009.12404v1
- Date: Fri, 25 Sep 2020 19:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:23:56.997991
- Title: Visually Grounded Compound PCFGs
- Title(参考訳): 視覚的接地型複合pcfgs
- Authors: Yanpeng Zhao and Ivan Titov
- Abstract要約: 言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
- 参考スコア(独自算出の注目度): 65.04669567781634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Exploiting visual groundings for language understanding has recently been
drawing much attention. In this work, we study visually grounded grammar
induction and learn a constituency parser from both unlabeled text and its
visual groundings. Existing work on this task (Shi et al., 2019) optimizes a
parser via Reinforce and derives the learning signal only from the alignment of
images and sentences. While their model is relatively accurate overall, its
error distribution is very uneven, with low performance on certain constituents
types (e.g., 26.2% recall on verb phrases, VPs) and high on others (e.g., 79.6%
recall on noun phrases, NPs). This is not surprising as the learning signal is
likely insufficient for deriving all aspects of phrase-structure syntax and
gradient estimates are noisy. We show that using an extension of probabilistic
context-free grammar model we can do fully-differentiable end-to-end visually
grounded learning. Additionally, this enables us to complement the image-text
alignment loss with a language modeling objective. On the MSCOCO test captions,
our model establishes a new state of the art, outperforming its non-grounded
version and, thus, confirming the effectiveness of visual groundings in
constituency grammar induction. It also substantially outperforms the previous
grounded model, with largest improvements on more `abstract' categories (e.g.,
+55.1% recall on VPs).
- Abstract(参考訳): 言語理解のための視覚的基盤の爆発が最近注目を集めている。
そこで本研究では,視覚的なグラマーインダクションを研究し,ラベルなしテキストとその視覚的接地から構成構文解析法を学習する。
このタスクに関する既存の作業(shi et al., 2019)では、画像と文のアライメントのみから学習信号の強化と導出を通じてパーサを最適化している。
モデル全体の精度は比較的高いが、その誤差分布は非常に不均一であり、特定の構成詞のタイプ(例えば、動詞句の26.2%のリコール、VPのリコール)や他よりも高い(名詞句の79.6%のリコール、NPs)。
フレーズ構造構文のすべての側面を導出するには学習信号が不十分であり、勾配推定がノイズが多いため、これは驚くべきことではない。
確率的文脈自由文法モデルの拡張を用いることで、完全に微分可能なエンドツーエンドの視覚基盤学習が可能になることを示す。
さらに、言語モデリングの目的により、画像とテキストのアライメントの損失を補完することもできます。
mscocoテストキャプションにおいて,本モデルは,その非接地版を上回り,構成文法インダクションにおける視覚的接地の有効性を確認することにより,芸術の新たな状態を確立する。
また、従来の接地モデルを大きく上回り、より多くの'抽象'カテゴリ(例えば+55.1%がvpsでリコール)で改善されている。
関連論文リスト
- Active Mining Sample Pair Semantics for Image-text Matching [6.370886833310617]
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
論文 参考訳(メタデータ) (2023-11-09T15:03:57Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Contextual Distortion Reveals Constituency: Masked Language Models are
Implicit Parsers [7.558415495951758]
マスク付き言語モデル(LM)から解析木を抽出する新しい手法を提案する。
本手法は,言語摂動による文脈表現の歪みに基づいて,各スパンのスコアを算出する。
本手法は,マスク付きLMを用いた英語における従来の最先端手法を一貫して上回り,多言語環境での優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T13:10:48Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。