論文の概要: Visually Grounded Speech Models have a Mutual Exclusivity Bias
- arxiv url: http://arxiv.org/abs/2403.13922v1
- Date: Wed, 20 Mar 2024 18:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:09:14.997061
- Title: Visually Grounded Speech Models have a Mutual Exclusivity Bias
- Title(参考訳): 相互排他バイアスを有する視覚的接地音声モデル
- Authors: Leanne Nortje, Dan Oneaţă, Yevgen Matusevych, Herman Kamper,
- Abstract要約: 子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる。
このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。
自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。
- 参考スコア(独自算出の注目度): 20.495178526318185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When children learn new words, they employ constraints such as the mutual exclusivity (ME) bias: a novel word is mapped to a novel object rather than a familiar one. This bias has been studied computationally, but only in models that use discrete word representations as input, ignoring the high variability of spoken words. We investigate the ME bias in the context of visually grounded speech models that learn from natural images and continuous speech audio. Concretely, we train a model on familiar words and test its ME bias by asking it to select between a novel and a familiar object when queried with a novel word. To simulate prior acoustic and visual knowledge, we experiment with several initialisation strategies using pretrained speech and vision networks. Our findings reveal the ME bias across the different initialisation approaches, with a stronger bias in models with more prior (in particular, visual) knowledge. Additional tests confirm the robustness of our results, even when different loss functions are considered.
- Abstract(参考訳): 子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる:新しい単語は親しみやすい単語ではなく、新しいオブジェクトにマップされる。
このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。
自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。
具体的には、慣れ親しんだ単語をモデルにトレーニングし、新しい単語を問う際に、小説と親しみのあるオブジェクトのどちらを選択するかを問うことで、そのMEバイアスをテストする。
事前の音響知識と視覚知識をシミュレートするために,事前学習した音声と視覚ネットワークを用いて,いくつかの初期化戦略を実験する。
以上の結果から,より先行的(特に視覚的)な知識を持つモデルにおいて,MEバイアスは,異なる初期化アプローチにまたがって強いバイアスを呈することがわかった。
さらに, 損失関数が異なる場合であっても, 結果の堅牢性を確認した。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Are words equally surprising in audio and audio-visual comprehension? [13.914373331208774]
同一音声刺激の音声のみおよび音声視覚提示において,各単語に関連付けられたERPシグネチャ(N400)を比較した。
以上の結果から,認知活動はマルチモーダル・アンモダル・セッティングと大きく異なることが示唆された。
これは、マルチモーダル環境における認知処理における局所語彙コンテキストの影響を顕著に示すものである。
論文 参考訳(メタデータ) (2023-07-14T11:17:37Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Modelling word learning and recognition using visually grounded speech [18.136170489933082]
音声認識の計算モデルは、しばしば対象の単語の集合が既に与えられていると仮定する。
これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。
視覚接地音声モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学習する。
論文 参考訳(メタデータ) (2022-03-14T08:59:37Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Investigating Novel Verb Learning in BERT: Selectional Preference
Classes and Alternation-Based Syntactic Generalization [22.112988757841467]
本稿では,英語動詞の2つの側面に対してBERTの少数ショット学習能力をテストするために,新しい単語学習パラダイムをデプロイする。
BERT は,新しい単語を1つないし2つの例で微調整した後,頑健な文法的一般化を行う。
論文 参考訳(メタデータ) (2020-11-04T17:17:49Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。