Fugu-MT 論文翻訳(概要): VLGrammar: Grounded Grammar Induction of Vision and Language

論文の概要: VLGrammar: Grounded Grammar Induction of Vision and Language

arxiv url: http://arxiv.org/abs/2103.12975v1
Date: Wed, 24 Mar 2021 04:05:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-25 14:15:11.340564
Title: VLGrammar: Grounded Grammar Induction of Vision and Language
Title（参考訳）: VLGrammar: 視覚と言語のグラマー誘導
Authors: Yining Hong, Qing Li, Song-Chun Zhu, Siyuan Huang
Abstract要約: 共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
参考スコア（独自算出の注目度）: 86.88273769411428
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cognitive grammar suggests that the acquisition of language grammar is grounded within visual structures. While grammar is an essential representation of natural language, it also exists ubiquitously in vision to represent the hierarchical part-whole structure. In this work, we study grounded grammar induction of vision and language in a joint learning framework. Specifically, we present VLGrammar, a method that uses compound probabilistic context-free grammars (compound PCFGs) to induce the language grammar and the image grammar simultaneously. We propose a novel contrastive learning framework to guide the joint learning of both modules. To provide a benchmark for the grounded grammar induction task, we collect a large-scale dataset, \textsc{PartIt}, which contains human-written sentences that describe part-level semantics for 3D objects. Experiments on the \textsc{PartIt} dataset show that VLGrammar outperforms all baselines in image grammar induction and language grammar induction. The learned VLGrammar naturally benefits related downstream tasks. Specifically, it improves the image unsupervised clustering accuracy by 30\%, and performs well in image retrieval and text retrieval. Notably, the induced grammar shows superior generalizability by easily generalizing to unseen categories.
Abstract（参考訳）: 認知文法は言語文法の獲得が視覚構造に基礎を置いていることを示唆する。文法は自然言語の本質的な表現であるが、階層的な部分全体構造を表現するために視覚的にもユビキタスに存在する。本研究では,共同学習の枠組みにおいて,視覚と言語の文法的帰納を基礎的に検討する。具体的には,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。両モジュールの協調学習を導くための,新しいコントラスト学習フレームワークを提案する。本研究では,3次元オブジェクトに対する部分レベルの意味論を記述した人文を含む大規模データセット \textsc{PartIt} を収集する。 textsc{PartIt}データセットの実験では、VLGrammarは画像文法の帰納や言語文法の帰属において、すべてのベースラインを上回ります。学習したVLGrammarは、下流タスクに自然に利益をもたらす。具体的には、教師なしクラスタリングの精度を30\%向上させ、画像検索やテキスト検索において良好に機能する。特に、誘導文法は、目に見えないカテゴリに容易に一般化することで、より優れた一般化性を示す。

関連論文リスト

Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-01T02:24:18Z)
Detecting and explaining (in)equivalence of context-free grammars [0.6282171844772422]
文脈自由文法の同値性を決定し,証明し,説明するためのスケーラブルなフレームワークを提案する。本稿では,本フレームワークの実装と,教育支援システム内で収集された大規模データセット上での評価を行う。
論文参考訳（メタデータ） (2024-07-25T17:36:18Z)
Learning Language Structures through Grounding [8.437466837766895]
言語構造を基礎として学習することを目的とした機械学習タスクのファミリーを考察する。パートIでは,視覚的接地を通して構文解析を学習することを検討する。第2部では文を対応する意味構造にマッピングする2つの実行対応手法を提案する。パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。
論文参考訳（メタデータ） (2024-06-14T02:21:53Z)
Learning grammar with a divide-and-concur neural network [4.111899441919164]
本研究では,文脈自由文法推論に対する分割・コンカレント反復予測手法を実装した。本手法は比較的少数の離散パラメータを必要とするため,推測文法を直接解釈可能である。
論文参考訳（メタデータ） (2022-01-18T22:42:43Z)
Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-09-20T18:40:37Z)
Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文参考訳（メタデータ） (2021-04-09T14:01:36Z)
Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文参考訳（メタデータ） (2020-09-25T19:07:00Z)
Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文参考訳（メタデータ） (2020-04-29T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。