論文の概要: I Have No Mouth, and I Must Rhyme: Uncovering Internal Phonetic Representations in LLaMA 3.2
- arxiv url: http://arxiv.org/abs/2508.02527v1
- Date: Mon, 04 Aug 2025 15:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.408092
- Title: I Have No Mouth, and I Must Rhyme: Uncovering Internal Phonetic Representations in LLaMA 3.2
- Title(参考訳): I have no Mouth, and I Must Rhyme: Ancovering Internal Phonetic Representations in LLaMA 3.2
- Authors: Jack Merullo, Arjun Khurana, Oliver McLaughlin,
- Abstract要約: 本稿では,動詞|Llama-3.2-1B-Instruct|がトークンレベルの音声情報をどのように表現するかを検討する。
以上の結果から,Llamaは音素モデルに富んだ内部モデルを用いて音声処理を完了したことが示唆された。
- 参考スコア(独自算出の注目度): 1.0987274574766708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models demonstrate proficiency on phonetic tasks, such as rhyming, without explicit phonetic or auditory grounding. In this work, we investigate how \verb|Llama-3.2-1B-Instruct| represents token-level phonetic information. Our results suggest that Llama uses a rich internal model of phonemes to complete phonetic tasks. We provide evidence for high-level organization of phoneme representations in its latent space. In doing so, we also identify a ``phoneme mover head" which promotes phonetic information during rhyming tasks. We visualize the output space of this head and find that, while notable differences exist, Llama learns a model of vowels similar to the standard IPA vowel chart for humans, despite receiving no direct supervision to do so.
- Abstract(参考訳): 大規模言語モデルは、韻律のような音素的タスクにおいて、明示的な音素的や聴覚的根拠を伴わない習熟度を示す。
本研究では, トークンレベル音声情報を表す<verb|Llama-3.2-1B-Instruct|について検討する。
以上の結果から,Llamaは音素モデルに富んだ内部モデルを用いて音声処理を完了したことが示唆された。
我々は,その潜在空間における音素表現の高レベルな組織化の証拠を提供する。
また,韻律作業中に音素情報を促進する「音素移動ヘッド」も同定する。
我々はこの頭部の出力空間を可視化し、顕著な違いはあるものの、Llamaは人間の標準IPA母音チャートに似た母音のモデルを学ぶ。
関連論文リスト
- Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction [1.778037147204838]
視覚自動音声認識(V-ASR)は、唇の動きや表情などの視覚情報のみから音声言語を解釈する課題である。
既存の手法は、しばしば視覚的手がかりから直接単語を予測することを目的としているが、視覚的曖昧さによる高いエラー率に悩まされることが多い。
本稿では,視覚的特徴とランドマーク的特徴を融合した新しい音素ベースの2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-25T00:38:39Z) - VALLR: Visual ASR Language Model for Lip Reading [28.561566996686484]
リップレディング(Lip Reading)または視覚自動音声認識(Visual Automatic Speech Recognition)は、視覚的手がかりからのみ音声言語の解釈を必要とする複雑なタスクである。
視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。
まず,CTCヘッドを用いたビデオ変換器を用いて,視覚入力から音素のコンパクトな列を予測する。
この音素出力は、コヒーレントな単語と文を再構成する微調整された大言語モデル(LLM)への入力として機能する。
論文 参考訳(メタデータ) (2025-03-27T11:52:08Z) - ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。
多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。
本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T05:53:37Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT [45.729377551100676]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link
between Phonemes and Facial Features [27.89284938655708]
この研究は、音素と顔の特徴の巧妙なリンクを明らかにする。
生理学的観点から見ると、音声の各部分(音素)は、顔の様々な種類の気流と動きに対応している。
その結果, 子音, 特に発声音と比較して, AMは母音からより予測可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-26T04:08:12Z) - Disentangled Phonetic Representation for Chinese Spelling Correction [25.674770525359236]
中国語のspelling Correctionは、中国語のテキスト中の誤字を検出し、訂正することを目的としている。
このタスクに音声情報を導入する試みは行われてきたが、通常は音声表現と文字表現を融合させる。
そこで本稿では,テキスト情報と音声情報の直接的相互作用を可能にするために,2種類の機能を切り離すことを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:39:12Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Visual Keyword Spotting with Attention [82.79015266453533]
本稿では,2つのストリームを取り込み,ビデオの視覚的エンコーディング,キーワードの音声的エンコーディングを行うトランスフォーマーモデルについて検討する。
本研究では,従来の視覚的キーワードスポッティングや唇読解法よりも優れていることを示す。
我々は,手話ビデオにおいて,孤立した口づけの極端な条件下での単語の発見能力を示す。
論文 参考訳(メタデータ) (2021-10-29T17:59:04Z) - Self-Supervised Learning of Context-Aware Pitch Prosody Representations [3.2489082010225485]
短歌声帯の文脈表現を基本周波数から暗黙的に学習する方法を示す。
これら2つの文脈の擬似タスク学習を活用する3つの自己教師型ディープラーニングパラダイムを提案する。
その結果,従来の統計的輪郭特性と比較して,文脈表現は下流の分類を最大15%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T15:41:00Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。