論文の概要: VLGrammar: Grounded Grammar Induction of Vision and Language
- arxiv url: http://arxiv.org/abs/2103.12975v1
- Date: Wed, 24 Mar 2021 04:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:15:11.340564
- Title: VLGrammar: Grounded Grammar Induction of Vision and Language
- Title(参考訳): VLGrammar: 視覚と言語のグラマー誘導
- Authors: Yining Hong, Qing Li, Song-Chun Zhu, Siyuan Huang
- Abstract要約: 共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
- 参考スコア(独自算出の注目度): 86.88273769411428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive grammar suggests that the acquisition of language grammar is
grounded within visual structures. While grammar is an essential representation
of natural language, it also exists ubiquitously in vision to represent the
hierarchical part-whole structure. In this work, we study grounded grammar
induction of vision and language in a joint learning framework. Specifically,
we present VLGrammar, a method that uses compound probabilistic context-free
grammars (compound PCFGs) to induce the language grammar and the image grammar
simultaneously. We propose a novel contrastive learning framework to guide the
joint learning of both modules. To provide a benchmark for the grounded grammar
induction task, we collect a large-scale dataset, \textsc{PartIt}, which
contains human-written sentences that describe part-level semantics for 3D
objects. Experiments on the \textsc{PartIt} dataset show that VLGrammar
outperforms all baselines in image grammar induction and language grammar
induction. The learned VLGrammar naturally benefits related downstream tasks.
Specifically, it improves the image unsupervised clustering accuracy by 30\%,
and performs well in image retrieval and text retrieval. Notably, the induced
grammar shows superior generalizability by easily generalizing to unseen
categories.
- Abstract(参考訳): 認知文法は言語文法の獲得が視覚構造に基礎を置いていることを示唆する。
文法は自然言語の本質的な表現であるが、階層的な部分全体構造を表現するために視覚的にもユビキタスに存在する。
本研究では,共同学習の枠組みにおいて,視覚と言語の文法的帰納を基礎的に検討する。
具体的には,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
両モジュールの協調学習を導くための,新しいコントラスト学習フレームワークを提案する。
本研究では,3次元オブジェクトに対する部分レベルの意味論を記述した人文を含む大規模データセット \textsc{PartIt} を収集する。
textsc{PartIt}データセットの実験では、VLGrammarは画像文法の帰納や言語文法の帰属において、すべてのベースラインを上回ります。
学習したVLGrammarは、下流タスクに自然に利益をもたらす。
具体的には、教師なしクラスタリングの精度を30\%向上させ、画像検索やテキスト検索において良好に機能する。
特に、誘導文法は、目に見えないカテゴリに容易に一般化することで、より優れた一般化性を示す。
関連論文リスト
- GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific
Narratives [69.36723767339001]
GPT4SGGを導入し、全体像と地域固有の物語からシーングラフを合成する。
このような画像データの表現とタスク固有のプロンプトにより、LCM、特にGPT-4はシーングラフを直接「擬似ラベル」として合成する。
GPT4SGGは画像キャプチャデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships [17.930724926012264]
教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-27T09:51:34Z) - Learning grammar with a divide-and-concur neural network [4.111899441919164]
本研究では,文脈自由文法推論に対する分割・コンカレント反復予測手法を実装した。
本手法は比較的少数の離散パラメータを必要とするため,推測文法を直接解釈可能である。
論文 参考訳(メタデータ) (2022-01-18T22:42:43Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - GrammarTagger: A Multilingual, Minimally-Supervised Grammar Profiler for
Language Education [7.517366022163375]
GrammarTaggerは、入力テキストを与えられたオープンソースの文法プロファイラで、言語教育に有用な文法的特徴を特定します。
モデルアーキテクチャにより、スパンとそのラベルで注釈付けされた少量のテキストから学ぶことができる。
また,その読解困難度と文法的特徴を指標とした言語学習教材の検索エンジン octanove learn を構築した。
論文 参考訳(メタデータ) (2021-04-07T15:31:20Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。