論文の概要: Learning English with Peppa Pig
- arxiv url: http://arxiv.org/abs/2202.12917v1
- Date: Fri, 25 Feb 2022 19:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 15:18:35.601867
- Title: Learning English with Peppa Pig
- Title(参考訳): Peppa Pigで英語を学ぶ
- Authors: Mitja Nikolaus and Afra Alishahi and Grzegorz Chrupa{\l}a
- Abstract要約: 本研究は,子どもの漫画『ペッパ・ピッグ』に基づくデータセットを用いて,自然主義的なグラウンドディングシナリオをシミュレートする第一歩である。
我々は、文字間の自然な対話からなるデータの一部に、単純なバイモーダルアーキテクチャを訓練する。
この訓練データに弱く、確立された信号があるにもかかわらず、我々のモデルは、音声言語の視覚的意味論の学習に成功している。
- 参考スコア(独自算出の注目度): 15.581176123296947
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Attempts to computationally simulate the acquisition of spoken language via
grounding in perception have a long tradition but have gained momentum in the
past few years. Current neural approaches exploit associations between the
spoken and visual modality and learn to represent speech and visual data in a
joint vector space. A major unresolved issue from the point of ecological
validity is the training data, typically consisting of images or videos paired
with spoken descriptions of what is depicted. Such a setup guarantees an
unrealistically strong correlation between speech and the visual world. In the
real world the coupling between the linguistic and the visual is loose, and
often contains confounds in the form of correlations with non-semantic aspects
of the speech signal. The current study is a first step towards simulating a
naturalistic grounding scenario by using a dataset based on the children's
cartoon Peppa Pig. We train a simple bi-modal architecture on the portion of
the data consisting of naturalistic dialog between characters, and evaluate on
segments containing descriptive narrations. Despite the weak and confounded
signal in this training data our model succeeds at learning aspects of the
visual semantics of spoken language.
- Abstract(参考訳): 知覚の接地を通じて言語習得を計算的にシミュレートしようとする試みは長い伝統があるが、ここ数年で勢いを増している。
現在のニューラルアプローチは、音声と視覚のモダリティの関係を利用して、共同ベクトル空間における音声と視覚データの表現を学ぶ。
生態学的妥当性の観点から、主要な未解決の問題は訓練データであり、典型的には画像やビデオからなり、描写されたものを音声で表現する。
このような設定は、音声と視覚世界の非現実的に強い相関を保証する。
現実の世界では、言語と視覚の結合は緩やかであり、しばしば音声信号の非意味的側面との相関という形で結合している。
本研究は,児童漫画peppa pigに基づくデータセットを用いて,自然主義的な接地シナリオをシミュレーションするための第一歩である。
文字間の自然対話からなるデータの一部に単純なバイモーダルアーキテクチャを訓練し,記述的ナレーションを含むセグメントを評価する。
この訓練データに弱く整合した信号があるにもかかわらず、我々のモデルは音声言語の視覚的意味論の学習に成功している。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。