論文の概要: ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.19937v2
- Date: Fri, 04 Jul 2025 14:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 17:51:39.892147
- Title: ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs
- Title(参考訳): ALAS:マルチモーダルLLMにおける音声理解のための潜在音声テキストアライメントの測定
- Authors: Pooneh Mousavi, Yingzhi Wang, Mirco Ravanelli, Cem Subakan,
- Abstract要約: ALAS(Automatic Latent Alignment Score)は、トランスフォーマー層間の音声とテキストの表現の相関を測定することでアライメントを評価するメトリクスである。
Spoken Question Answering and Emotion Recognitionの実験によると、ALASはタスクやレイヤ間で意味のあるパターンをキャプチャする。
- 参考スコア(独自算出の注目度): 11.696352577108211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in Spoken Language Understanding (SLU), where effective multimodal learning depends on the alignment between audio and text. Despite various fusion methods, no standard metric exists to assess this alignment. This work introduces ALAS (Automatic Latent Alignment Score), a metric that evaluates alignment by measuring correlations between audio and text representations across transformer layers. Experiments on Spoken Question Answering and Emotion Recognition show that ALAS captures meaningful patterns across tasks and layers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、音声とテキストのアライメントに依存する効果的なマルチモーダル学習である、音声言語理解(SLU)において、ますます使われている。
様々な融合法にもかかわらず、このアライメントを評価するための標準計量は存在しない。
ALAS(Automatic Latent Alignment Score)は、トランスフォーマー層間の音声とテキストの表現の相関を測定することでアライメントを評価するメトリクスである。
Spoken Question Answering and Emotion Recognitionの実験によると、ALASはタスクやレイヤ間で意味のあるパターンをキャプチャする。
関連論文リスト
- LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文 参考訳(メタデータ) (2025-03-06T18:59:38Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。
本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-06-10T02:04:28Z) - What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models [6.313516199029267]
音声キャプション/分類実験を通じて、音声MLLMは、音声キャプションを生成する際に、LLMのテキストベースの推論を完全に活用できないことを示す。
また,LLMからオーディオエンコーダへの推論経路を分離するなど,聴覚情報とテキスト情報を別々に表現するMLLMが原因である可能性についても検討する。
論文 参考訳(メタデータ) (2024-06-07T03:55:00Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。