論文の概要: VLGrammar: Grounded Grammar Induction of Vision and Language
- arxiv url: http://arxiv.org/abs/2103.12975v1
- Date: Wed, 24 Mar 2021 04:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:15:11.340564
- Title: VLGrammar: Grounded Grammar Induction of Vision and Language
- Title(参考訳): VLGrammar: 視覚と言語のグラマー誘導
- Authors: Yining Hong, Qing Li, Song-Chun Zhu, Siyuan Huang
- Abstract要約: 共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
- 参考スコア(独自算出の注目度): 86.88273769411428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive grammar suggests that the acquisition of language grammar is
grounded within visual structures. While grammar is an essential representation
of natural language, it also exists ubiquitously in vision to represent the
hierarchical part-whole structure. In this work, we study grounded grammar
induction of vision and language in a joint learning framework. Specifically,
we present VLGrammar, a method that uses compound probabilistic context-free
grammars (compound PCFGs) to induce the language grammar and the image grammar
simultaneously. We propose a novel contrastive learning framework to guide the
joint learning of both modules. To provide a benchmark for the grounded grammar
induction task, we collect a large-scale dataset, \textsc{PartIt}, which
contains human-written sentences that describe part-level semantics for 3D
objects. Experiments on the \textsc{PartIt} dataset show that VLGrammar
outperforms all baselines in image grammar induction and language grammar
induction. The learned VLGrammar naturally benefits related downstream tasks.
Specifically, it improves the image unsupervised clustering accuracy by 30\%,
and performs well in image retrieval and text retrieval. Notably, the induced
grammar shows superior generalizability by easily generalizing to unseen
categories.
- Abstract(参考訳): 認知文法は言語文法の獲得が視覚構造に基礎を置いていることを示唆する。
文法は自然言語の本質的な表現であるが、階層的な部分全体構造を表現するために視覚的にもユビキタスに存在する。
本研究では,共同学習の枠組みにおいて,視覚と言語の文法的帰納を基礎的に検討する。
具体的には,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
両モジュールの協調学習を導くための,新しいコントラスト学習フレームワークを提案する。
本研究では,3次元オブジェクトに対する部分レベルの意味論を記述した人文を含む大規模データセット \textsc{PartIt} を収集する。
textsc{PartIt}データセットの実験では、VLGrammarは画像文法の帰納や言語文法の帰属において、すべてのベースラインを上回ります。
学習したVLGrammarは、下流タスクに自然に利益をもたらす。
具体的には、教師なしクラスタリングの精度を30\%向上させ、画像検索やテキスト検索において良好に機能する。
特に、誘導文法は、目に見えないカテゴリに容易に一般化することで、より優れた一般化性を示す。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Detecting and explaining (in)equivalence of context-free grammars [0.6282171844772422]
文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。
本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。
論文 参考訳(メタデータ) (2024-07-25T17:36:18Z) - Learning Language Structures through Grounding [8.437466837766895]
言語構造を基礎として学習することを目的とした機械学習タスクのファミリーを考察する。
パートIでは,視覚的接地を通して構文解析を学習することを検討する。
第2部では文を対応する意味構造にマッピングする2つの実行対応手法を提案する。
パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T02:21:53Z) - Learning grammar with a divide-and-concur neural network [4.111899441919164]
本研究では,文脈自由文法推論に対する分割・コンカレント反復予測手法を実装した。
本手法は比較的少数の離散パラメータを必要とするため,推測文法を直接解釈可能である。
論文 参考訳(メタデータ) (2022-01-18T22:42:43Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。