論文の概要: What Do Language Models Hear? Probing for Auditory Representations in
Language Models
- arxiv url: http://arxiv.org/abs/2402.16998v1
- Date: Mon, 26 Feb 2024 20:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:42:23.184626
- Title: What Do Language Models Hear? Probing for Auditory Representations in
Language Models
- Title(参考訳): 言語モデルは何を聴くか?
言語モデルにおける聴覚表現の探索
- Authors: Jerry Ngo, Yoon Kim
- Abstract要約: 我々は、そのオブジェクトに関連する音声のスニペットが与えられたオブジェクトの正しいテキスト表現を検索する線形プローブを学習する。
このプローブは、互いに近接するオブジェクトの言語表現と音声表現をプッシュする、対照的な損失によって訓練される。
異なる言語モデルと音声モデルの間で、プローブの一般化は多くの場合、高い確率で起こる。
- 参考スコア(独自算出の注目度): 29.41934754268206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores whether language models encode meaningfully grounded
representations of sounds of objects. We learn a linear probe that retrieves
the correct text representation of an object given a snippet of audio related
to that object, where the sound representation is given by a pretrained audio
model. This probe is trained via a contrastive loss that pushes the language
representations and sound representations of an object to be close to one
another. After training, the probe is tested on its ability to generalize to
objects that were not seen during training. Across different language models
and audio models, we find that the probe generalization is above chance in many
cases, indicating that despite being trained only on raw text, language models
encode grounded knowledge of sounds for some objects.
- Abstract(参考訳): この研究は、言語モデルがオブジェクトの音の有意義な基底表現を符号化するかどうかを考察する。
我々は,その物体に関連する音声のスニペットを与えられた物体の正しいテキスト表現を検索する線形プローブを学習し,音声表現を事前学習した音声モデルで与える。
このプローブは、互いに近接するオブジェクトの言語表現と音声表現をプッシュする、対照的な損失によって訓練される。
訓練後、探査機は訓練中に見られなかった物体に一般化する能力で試験される。
異なる言語モデルと音声モデルの間で、プローブの一般化は多くの場合、原文のみに基づいて訓練されているにもかかわらず、いくつかのオブジェクトに対する音の基底知識を符号化していることを示す。
関連論文リスト
- Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Are discrete units necessary for Spoken Language Modeling? [10.374092717909603]
音声言語モデリングにおける最近の研究は、テキストラベルなしで生音声から教師なしの言語を学ぶ可能性を示している。
音声言語モデリングの優れた結果を得るためには,離散化が不可欠であることを示す。
また、HuBERTのような個別のターゲットで訓練されたエンドツーエンドモデルは、擬似テキストで訓練された最良の言語モデルと同様の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-03-11T14:14:35Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。