論文の概要: Learning Language Structures through Grounding
- arxiv url: http://arxiv.org/abs/2406.09662v1
- Date: Fri, 14 Jun 2024 02:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:23:26.436266
- Title: Learning Language Structures through Grounding
- Title(参考訳): 接地を通して言語構造を学ぶ
- Authors: Freda Shi,
- Abstract要約: 言語構造を基礎として学習することを目的とした機械学習タスクのファミリーを考察する。
パートIでは,視覚的接地を通して構文解析を学習することを検討する。
第2部では文を対応する意味構造にマッピングする2つの実行対応手法を提案する。
パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。
- 参考スコア(独自算出の注目度): 8.437466837766895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language is highly structured, with syntactic and semantic structures, to some extent, agreed upon by speakers of the same language. With implicit or explicit awareness of such structures, humans can learn and use language efficiently and generalize to sentences that contain unseen words. Motivated by human language learning, in this dissertation, we consider a family of machine learning tasks that aim to learn language structures through grounding. We seek distant supervision from other data sources (i.e., grounds), including but not limited to other modalities (e.g., vision), execution results of programs, and other languages. We demonstrate the potential of this task formulation and advocate for its adoption through three schemes. In Part I, we consider learning syntactic parses through visual grounding. We propose the task of visually grounded grammar induction, present the first models to induce syntactic structures from visually grounded text and speech, and find that the visual grounding signals can help improve the parsing quality over language-only models. As a side contribution, we propose a novel evaluation metric that enables the evaluation of speech parsing without text or automatic speech recognition systems involved. In Part II, we propose two execution-aware methods to map sentences into corresponding semantic structures (i.e., programs), significantly improving compositional generalization and few-shot program synthesis. In Part III, we propose methods that learn language structures from annotations in other languages. Specifically, we propose a method that sets a new state of the art on cross-lingual word alignment. We then leverage the learned word alignments to improve the performance of zero-shot cross-lingual dependency parsing, by proposing a novel substructure-based projection method that preserves structural knowledge learned from the source language.
- Abstract(参考訳): 言語は高度に構造化されており、構文構造と意味構造はある程度同じ言語の話者によって合意されている。
このような構造を暗黙的に、あるいは明示的に認識することで、人間は言語を効率的に学習し、使用することができ、目に見えない単語を含む文に一般化することができる。
人間の言語学習に動機づけられたこの論文では、基礎を通して言語構造を学習することを目的とした機械学習タスクのファミリーについて考察する。
我々は、他のデータソース(例えば、グラウンド)から遠ざかる監視を求めており、他のモダリティ(例えば、ビジョン)、プログラムの実行結果、その他の言語に制限されない。
このタスクの定式化の可能性を実証し、3つのスキームによる採用を提唱する。
パートIでは,視覚的接地を通して構文解析を学習することを検討する。
そこで本稿では,視覚的に接頭した文法誘導の課題を提案し,視覚的に接頭したテキストや音声から構文構造を誘導する最初のモデルを提示する。
副次的貢献として,テキストや自動音声認識システムを介さずに音声解析を評価できる新しい評価指標を提案する。
パートIIでは、文を対応する意味構造(例えば、プログラム)にマッピングする2つの実行対応手法を提案する。
パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。
具体的には,言語間単語アライメントに新たな最先端技術を設定する手法を提案する。
次に、学習した単語アライメントを活用し、ゼロショットの言語間依存関係解析の性能を向上させる。
関連論文リスト
- Reframing linguistic bootstrapping as joint inference using visually-grounded grammar induction models [31.006803764376475]
意味的・統語的ブートストラッピング・ポジトリ(Semantic and Syntactic bootstrapping posit)とは、子供が特定の言語領域についての事前の知識、例えば構文的関係(syntactic relations)を使い、後に新しい単語の意味などの他の知識を取得する手助けをするものである。
ここでは、両者が、言語習得のためのより一般的な学習戦略である共同学習に固執していると論じる。
一連の視覚的文法帰納モデルを用いて,構文と意味が同時に学習された場合に,構文的および意味的ブートストラップ効果が最強であることが実証された。
論文 参考訳(メタデータ) (2024-06-17T18:01:06Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - Multilingual Neural RST Discourse Parsing [24.986030179701405]
本稿では,多言語ベクトル表現とセグメントレベルの翻訳によるニューラル言語間対話を確立するための2つの手法について検討する。
実験結果から,両手法は訓練データに制限があっても有効であり,言語横断的,文書レベルの談話解析における最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-12-03T05:03:38Z) - MUTATT: Visual-Textual Mutual Guidance for Referring Expression
Comprehension [16.66775734538439]
参照式理解は、自然言語の参照式により、与えられた画像中のテキスト関連領域をローカライズすることを目的としている。
我々はRECにおいて参照表現と対象領域は意味論的に相関していると主張している。
視覚と言語間の相互指導を構築するために,MutAttと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T03:14:58Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z) - A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology
with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。
第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。
提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文 参考訳(メタデータ) (2020-02-24T08:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。