論文の概要: Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations
- arxiv url: http://arxiv.org/abs/2509.15655v1
- Date: Fri, 19 Sep 2025 06:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.028792
- Title: Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations
- Title(参考訳): 音声表現における文脈的文法的概念的階層性に関する階層的最小ペア探索法
- Authors: Linyang He, Qiaolin Wang, Xilin Jiang, Nima Mesgarani,
- Abstract要約: トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
SLMが如何に構文的・概念的特徴をエンコードするかはいまだ不明である。
本研究は,SLMにおける文脈的構文的特徴と意味的特徴の存在を体系的に評価した最初のものである。
- 参考スコア(独自算出の注目度): 18.74784108693223
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based speech language models (SLMs) have significantly improved neural speech recognition and understanding. While existing research has examined how well SLMs encode shallow acoustic and phonetic features, the extent to which SLMs encode nuanced syntactic and conceptual features remains unclear. By drawing parallels with linguistic competence assessments for large language models, this study is the first to systematically evaluate the presence of contextual syntactic and semantic features across SLMs for self-supervised learning (S3M), automatic speech recognition (ASR), speech compression (codec), and as the encoder for auditory large language models (AudioLLMs). Through minimal pair designs and diagnostic feature analysis across 71 tasks spanning diverse linguistic levels, our layer-wise and time-resolved analysis uncovers that 1) all speech encode grammatical features more robustly than conceptual ones.
- Abstract(参考訳): トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
従来の研究では、SLMが浅い音響的特徴と音声的特徴をどの程度うまく符号化するかが研究されているが、SLMがニュアンスな構文的特徴と概念的特徴をエンコードする程度はまだ不明である。
本研究は,大規模言語モデルに対する言語能力評価と並行して,自己教師付き学習(S3M),自動音声認識(ASR),音声圧縮(コーデック),聴覚大言語モデル(AudioLLMs)のエンコーダとして,SLMにおける文脈的統語的・意味的特徴の存在を体系的に評価する最初の試みである。
多様な言語レベルにまたがる71のタスクにまたがる最小のペア設計と診断的特徴分析により,1)すべての音声が概念的特徴よりも頑健に文法的特徴を符号化していることが判明した。
関連論文リスト
- Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs [59.230858581944425]
音声処理には、離散トークンと連続的な特徴の2つの主要なアプローチが出現している。
自己教師付き学習(SSL)に基づく離散的かつ連続的な特徴を、同じ実験環境下で比較する。
その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
論文 参考訳(メタデータ) (2025-08-25T10:16:07Z) - SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - Factorized RVQ-GAN For Disentangled Speech Tokenization [34.73812744103814]
本稿では,そのボトルネックを1つのモデルで3つの言語レベル(音響,音声,語彙)に分解する統合型ニューラル音声エンコーダを提案する。
英語と多言語のデータの実験により、HACの分解されたボトルネックは非絡み合いのトークン集合をもたらすことが示された。
定量的評価は,HACが自然性を保持し,言語情報を提供することを確認した。
論文 参考訳(メタデータ) (2025-06-18T13:36:34Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Encoding of lexical tone in self-supervised models of spoken language [3.7270979204213446]
本稿では,音声言語モデル(SLM)のトーン符号化機能の解析を目的とした。
SLMは、非音節言語からのデータに基づいて訓練された場合でも、語彙のトーンをかなりの程度にエンコードすることを示す。
SLMは音色や子音の知覚研究において、母国人や非母国人と同様に振る舞う。
論文 参考訳(メタデータ) (2024-03-25T15:28:38Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。