論文の概要: A Simple Method to Enhance Pre-trained Language Models with Speech Tokens for Classification
- arxiv url: http://arxiv.org/abs/2512.07571v1
- Date: Mon, 08 Dec 2025 14:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.91573
- Title: A Simple Method to Enhance Pre-trained Language Models with Speech Tokens for Classification
- Title(参考訳): 音声トークンを用いた事前学習型言語モデルによる分類法
- Authors: Nicolas Calbucura, Valentin Barriere,
- Abstract要約: 音声からテキストに多くの埋め込みを融合させるという古典的な問題は、テキストに比べて音声シーケンスの長大さである。
提案手法は,大規模語彙から長文のトークン列を出力する音声認識のために訓練された既存の音声トークン化手法の恩恵を受ける。
これにより、単調モデルと比較して、より大きなSpeechLMに、学習した表現を通してオーディオを統合することで、パフォーマンスを向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a simple method that allows to easily enhance textual pre-trained large language models with speech information, when fine-tuned for a specific classification task. A classical issue with the fusion of many embeddings from audio with text is the large length of the audio sequence compared to the text one. Our method benefits from an existing speech tokenizer trained for Audio Speech Recognition that output long sequences of tokens from a large vocabulary, making it difficult to integrate it at low cost in a large language model. By applying a simple lasso-based feature selection on multimodal Bag-of-Words representation, we retain only the most important audio tokens for the task, and adapt the language model to them with a self-supervised language modeling objective, before fine-tuning it on the downstream task. We show this helps to improve the performances compared to an unimodal model, to a bigger SpeechLM or to integrating audio via a learned representation. We show the effectiveness of our method on two recent Argumentative Fallacy Detection and Classification tasks where the use of audio was believed counterproductive, reaching state-of-the-art results. We also provide an in-depth analysis of the method, showing that even a random audio token selection helps enhancing the unimodal model. Our code is available [online](https://github.com/salocinc/EACL26SpeechTokFallacy/).
- Abstract(参考訳): 本稿では,特定の分類タスクを微調整した場合に,音声情報を用いたテキスト事前学習型大規模言語モデルを容易に拡張できる簡易な手法を提案する。
音声からテキストに多くの埋め込みを融合させるという古典的な問題は、テキストに比べて音声シーケンスの長大さである。
提案手法は,大規模語彙から長文のトークン列を出力する音声認識のために訓練された既存の音声トークンの利点を生かし,大規模言語モデルに低コストで統合することが困難である。
マルチモーダルなBag-of-Words表現に単純なラッソベースの特徴選択を適用することで、タスクの最も重要な音声トークンのみを保持し、下流タスクで微調整する前に、自己教師付き言語モデリング目的の言語モデルに適応する。
これにより、単調モデルと比較して、より大きなSpeechLMに、学習した表現を通してオーディオを統合することで、パフォーマンスを向上させることができることを示す。
提案手法は, 音声を非生産的とみなし, 最先端に到達した2つの課題に対して有効であることを示す。
また,提案手法の詳細な解析を行い,ランダムな音声トークンの選択さえも,単調モデルの向上に役立つことを示す。
私たちのコードはオンライン(https://github.com/salocinc/EACL26SpeechTokFallacy/)で利用可能です。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。