論文の概要: Are words equally surprising in audio and audio-visual comprehension?
- arxiv url: http://arxiv.org/abs/2307.07277v1
- Date: Fri, 14 Jul 2023 11:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:11:29.181634
- Title: Are words equally surprising in audio and audio-visual comprehension?
- Title(参考訳): 音声と音声の視覚的理解において、言葉は等しく驚くか?
- Authors: Pranava Madhyastha, Ye Zhang, Gabriella Vigliocco
- Abstract要約: 同一音声刺激の音声のみおよび音声視覚提示において,各単語に関連付けられたERPシグネチャ(N400)を比較した。
以上の結果から,認知活動はマルチモーダル・アンモダル・セッティングと大きく異なることが示唆された。
これは、マルチモーダル環境における認知処理における局所語彙コンテキストの影響を顕著に示すものである。
- 参考スコア(独自算出の注目度): 13.914373331208774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We report a controlled study investigating the effect of visual information
(i.e., seeing the speaker) on spoken language comprehension. We compare the ERP
signature (N400) associated with each word in audio-only and audio-visual
presentations of the same verbal stimuli. We assess the extent to which
surprisal measures (which quantify the predictability of words in their lexical
context) are generated on the basis of different types of language models
(specifically n-gram and Transformer models) that predict N400 responses for
each word. Our results indicate that cognitive effort differs significantly
between multimodal and unimodal settings. In addition, our findings suggest
that while Transformer-based models, which have access to a larger lexical
context, provide a better fit in the audio-only setting, 2-gram language models
are more effective in the multimodal setting. This highlights the significant
impact of local lexical context on cognitive processing in a multimodal
environment.
- Abstract(参考訳): 本稿では,視覚情報(話者を見ること)が音声言語理解に与える影響について検討した。
同一音声刺激の音声のみおよび音声視覚提示において,各単語に関連するERPシグネチャ(N400)を比較した。
各単語に対するn400応答を予測した言語モデル(特にn-gramとtransformerモデル)の異なるタイプに基づいて、単語の予測可能性を定量化する超越的尺度(語彙的文脈における単語の予測可能性)が生成される程度を評価する。
以上の結果から,認知活動はマルチモーダル・アンモダル・セッティングと大きく異なることが示唆された。
さらに,より大きな語彙文脈にアクセスできるトランスフォーマーモデルでは,音声のみの設定に適合するが,マルチモーダル設定では2グラムの言語モデルの方が有効であることが示唆された。
これは、マルチモーダル環境における認知処理に対する局所語彙文脈の影響を強調する。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning [2.28438857884398]
本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。
我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
論文 参考訳(メタデータ) (2020-11-23T13:29:16Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。