論文の概要: Dependency Induction Through the Lens of Visual Perception
- arxiv url: http://arxiv.org/abs/2109.09790v1
- Date: Mon, 20 Sep 2021 18:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 04:04:52.271648
- Title: Dependency Induction Through the Lens of Visual Perception
- Title(参考訳): 視覚知覚レンズによる依存性誘導
- Authors: Ruisi Su, Shruti Rijhwani, Hao Zhu, Junxian He, Xinyu Wang, Yonatan
Bisk, Graham Neubig
- Abstract要約: 本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
- 参考スコア(独自算出の注目度): 81.91502968815746
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most previous work on grammar induction focuses on learning phrasal or
dependency structure purely from text. However, because the signal provided by
text alone is limited, recently introduced visually grounded syntax models make
use of multimodal information leading to improved performance in constituency
grammar induction. However, as compared to dependency grammars, constituency
grammars do not provide a straightforward way to incorporate visual information
without enforcing language-specific heuristics. In this paper, we propose an
unsupervised grammar induction model that leverages word concreteness and a
structural vision-based heuristic to jointly learn constituency-structure and
dependency-structure grammars. Our experiments find that concreteness is a
strong indicator for learning dependency grammars, improving the direct
attachment score (DAS) by over 50\% as compared to state-of-the-art models
trained on pure text. Next, we propose an extension of our model that leverages
both word concreteness and visual semantic role labels in constituency and
dependency parsing. Our experiments show that the proposed extension
outperforms the current state-of-the-art visually grounded models in
constituency parsing even with a smaller grammar size.
- Abstract(参考訳): 文法誘導に関するこれまでのほとんどの研究は、純粋にテキストからフレーズや依存構造を学ぶことに焦点を当てていた。
しかし、テキストのみで提供される信号は限られているため、最近導入された視覚的接地構文モデルはマルチモーダル情報を利用し、構成文法誘導の性能向上に繋がる。
しかし、依存文法と比較して、構成文法は言語固有のヒューリスティックを強制せずに視覚情報を組み込むための簡単な方法を提供していない。
本稿では,単語の具体性と構造的視覚に基づくヒューリスティックを活用し,構成構成構造と係り受け構造文法を共同で学習する教師なし文法誘導モデルを提案する。
実験の結果, 具体性は依存文法を学習するための強力な指標であり, 純文で訓練された最先端のモデルと比較して, 直接アタッチメントスコア(DAS)を50%以上向上させることがわかった。
次に,単語の具体性と視覚的意味的役割のラベルを,構成と依存関係のパースに活用するモデルの拡張を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
関連論文リスト
- Leveraging Grammar Induction for Language Understanding and Generation [7.459693992079273]
言語理解と生成のための教師なし文法帰納法を提案する。
我々は,下流タスクで同時に訓練された選挙区構造と係り受け関係を誘導する文法を構築した。
複数の機械翻訳タスクの自然言語理解タスクに対して,本手法の評価と適用を行った。
論文 参考訳(メタデータ) (2024-10-07T09:57:59Z) - Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Improve Discourse Dependency Parsing with Contextualized Representations [28.916249926065273]
本稿では,異なるレベルの単位の文脈化表現を符号化するトランスフォーマーの活用を提案する。
記事間で共通に共有される記述パターンの観察に動機付けられ,談話関係の識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T14:35:38Z) - Imposing Relation Structure in Language-Model Embeddings Using
Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。
結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-02T10:58:27Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - StructFormer: Joint Unsupervised Induction of Dependency and
Constituency Structure from Masked Language Modeling [45.96663013609177]
依存関係と選挙区構造を同時に誘導できる新しいモデルであるStructFormerを導入する。
我々は,新しい依存性制約自己保持機構を通じて,変換器に誘導される依存性関係を微分可能な方法で統合する。
実験結果から, 教師なし選挙区解析, 教師なし依存関係解析, マスキング言語モデリングにおいて, モデルが強い結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-01T21:54:51Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。