論文の概要: VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion
- arxiv url: http://arxiv.org/abs/2509.15667v1
- Date: Fri, 19 Sep 2025 06:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.034532
- Title: VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion
- Title(参考訳): VOX-KRIKRI:連続融合による音声と言語の統合
- Authors: Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros,
- Abstract要約: 本稿では,事前訓練されたデコーダベース大規模言語モデル(LLM)とWhisperのような音響エンコーダ-デコーダアーキテクチャをブリッジするフレームワークを提案する。
提案手法は連続的なテキスト表現空間で完全に動作し,Whisperの隠れデコーダ状態とLLMの状態とを相互注意により融合する。
- 参考スコア(独自算出の注目度): 7.96619533548369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a multimodal fusion framework that bridges pre-trained decoder-based large language models (LLM) and acoustic encoder-decoder architectures such as Whisper, with the aim of building speech-enabled LLMs. Instead of directly using audio embeddings, we explore an intermediate audio-conditioned text space as a more effective mechanism for alignment. Our method operates fully in continuous text representation spaces, fusing Whisper's hidden decoder states with those of an LLM through cross-modal attention, and supports both offline and streaming modes. We introduce \textit{VoxKrikri}, the first Greek speech LLM, and show through analysis that our approach effectively aligns representations across modalities. These results highlight continuous space fusion as a promising path for multilingual and low-resource speech LLMs, while achieving state-of-the-art results for Automatic Speech Recognition in Greek, providing an average $\sim20\%$ relative improvement across benchmarks.
- Abstract(参考訳): 本稿では,事前訓練されたデコーダベース大規模言語モデル(LLM)とWhisperのような音響エンコーダ-デコーダアーキテクチャをブリッジするマルチモーダル融合フレームワークを提案する。
オーディオ埋め込みを直接使用する代わりに、アライメントのためのより効果的なメカニズムとして、中間的なオーディオ条件付きテキスト空間を探索する。
提案手法は連続的なテキスト表現空間で完全に動作し,Whisperの隠れデコーダ状態とLLMの状態とを相互注意で融合し,オフラインモードとストリーミングモードの両方をサポートする。
ギリシャ語の最初のLLMである「textit{VoxKrikri}」を導入し、分析を通して、我々の手法がモーダル表現を効果的に整合させることを示す。
これらの結果から, 連続空間融合は, 多言語および低リソースのLLMにとって有望な経路であり, ギリシャ語における音声認識の最先端化を実現し, ベンチマーク全体で平均$\sim20\%の相対的改善を実現している。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。
我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。
TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文 参考訳(メタデータ) (2025-06-01T09:27:55Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。