論文の概要: Tracking the emergence of linguistic structure in self-supervised models learning from speech
- arxiv url: http://arxiv.org/abs/2604.02043v1
- Date: Thu, 02 Apr 2026 13:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.827412
- Title: Tracking the emergence of linguistic structure in self-supervised models learning from speech
- Title(参考訳): 音声から学習した自己教師型モデルにおける言語構造の出現追跡
- Authors: Marianne de Heer Kloots, Martijn Bentum, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema,
- Abstract要約: オランダ語で訓練された6つのWav2Vec2およびHuBERTモデルの層間および中間チェックポイントの幅広い言語構造の符号化について検討した。
言語構造の異なるレベルは、学習軌跡だけでなく、明らかに異なる階層的なパターンを示す。
- 参考スコア(独自算出の注目度): 5.443419622061083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech models learn effective representations of spoken language, which have been shown to reflect various aspects of linguistic structure. But when does such structure emerge in model training? We study the encoding of a wide range of linguistic structures, across layers and intermediate checkpoints of six Wav2Vec2 and HuBERT models trained on spoken Dutch. We find that different levels of linguistic structure show notably distinct layerwise patterns as well as learning trajectories, which can partially be explained by differences in their degree of abstraction from the acoustic signal and the timescale at which information from the input is integrated. Moreover, we find that the level at which pre-training objectives are defined strongly affects both the layerwise organization and the learning trajectories of linguistic structures, with greater parallelism induced by higher-order prediction tasks (i.e. iteratively refined pseudo-labels).
- Abstract(参考訳): 自己教師型音声モデルは、言語構造の様々な側面を反映した音声言語の効果的な表現を学習する。
しかし、モデルトレーニングでそのような構造が現れるのはいつか?
オランダ語で訓練された6つのWav2Vec2およびHuBERTモデルの層間および中間チェックポイントの幅広い言語構造の符号化について検討した。
音声信号からの抽象化の程度と入力からの情報が統合される時間スケールの違いによって部分的に説明できる。
さらに,事前学習目標が定義されるレベルは,高次予測タスク(即ち,反復的に修正された擬似ラベル)によって誘導される,言語構造の階層的構造と学習軌跡の両方に強く影響を及ぼすことがわかった。
関連論文リスト
- StructLens: A Structural Lens for Language Models via Maximum Spanning Trees [52.040177523973334]
StructLensは、内部構造が全体構造とどのように関係しているかを明らかにするために設計された分析フレームワークである。
以上の結果から,StructLensは従来のコサイン類似性とは大きく異なる層間類似性パターンを呈することが明らかとなった。
論文 参考訳(メタデータ) (2026-02-10T11:30:32Z) - Alignment among Language, Vision and Action Representations [0.0]
言語,視覚,行動表現が部分的に共有された意味構造に収束することを示す。
これらの結果は、言語、視覚、行動表現が部分的に共有された意味構造に収束していることを示している。
論文 参考訳(メタデータ) (2026-01-30T13:12:07Z) - Disaggregation Reveals Hidden Training Dynamics: The Case of Agreement Attraction [6.531546527140474]
言語モデルは一般的に文法的なテキストを生成するが、特定の文脈で誤りを犯しやすい。
言語モデルにおける文法学習の中間段階をよりよく理解することは可能であることを示す。
言語モデルの振る舞いを解析するためにこのアプローチを採用することは、中間学習フェーズ、全体的なトレーニングダイナミクス、言語モデルによって学習された特定の一般化を理解するための強力なツールとなり得る、と我々は論じる。
論文 参考訳(メタデータ) (2025-10-28T19:59:26Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。
我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文 参考訳(メタデータ) (2024-12-23T10:23:47Z) - Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。
我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。
その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T09:21:39Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。