論文の概要: NAVER LABS Europe Submission to the Instruction-following Track
- arxiv url: http://arxiv.org/abs/2506.01808v1
- Date: Mon, 02 Jun 2025 15:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.772021
- Title: NAVER LABS Europe Submission to the Instruction-following Track
- Title(参考訳): NAVER LABSヨーロッパからの指示追従コースへの参加
- Authors: Beomseok Lee, Marcely Zanon Boito, Laurent Besacier, Ioan Calapodescu,
- Abstract要約: We describe NAVER LABS Europe submit to the instruction-following speech processing short track at IWSLT 2025。
ASR,ST,SQAタスクを英語の音声入力から中国語,イタリア語,ドイツ語の3言語に同時実行可能なシステムを開発した。
- 参考スコア(独自算出の注目度): 25.9221252675616
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper we describe NAVER LABS Europe submission to the instruction-following speech processing short track at IWSLT 2025. We participate in the constrained settings, developing systems that can simultaneously perform ASR, ST, and SQA tasks from English speech input into the following target languages: Chinese, Italian, and German. Our solution leverages two pretrained modules: (1) a speech-to-LLM embedding projector trained using representations from the SeamlessM4T-v2-large speech encoder; and (2) LoRA adapters trained on text data on top of a Llama-3.1-8B-Instruct. These modules are jointly loaded and further instruction-tuned for 1K steps on multilingual and multimodal data to form our final system submitted for evaluation.
- Abstract(参考訳): 本稿では,IWSLT 2025における命令追従音声処理ショートトラックへのNAVER LABS Europeの提出について述べる。
ASR, ST, SQAタスクを英語の音声入力から, 中国語, イタリア語, ドイツ語の3言語に同時実行可能なシステムを開発した。
本ソリューションでは,(1)SeamlessM4T-v2-large音声エンコーダの表現を用いて訓練された音声-LLM埋め込みプロジェクタ,(2)Llama-3.1-8B-インストラクタ上のテキストデータに基づいて訓練されたLoRAアダプタの2つの事前学習モジュールを利用する。
これらのモジュールは、複数言語およびマルチモーダルデータ上の1Kステップに対して、共同でロードされ、さらに命令調整され、評価のために提案された最終システムを形成する。
関連論文リスト
- KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025 [56.61209412965054]
本稿では、カールスルーエ工科大学のオフラインSTとインストラクションフォロー(IF)トラックへの提出について紹介する。
文書レベルの文脈を持つLLMを用いて出力を融合した複数の自動音声認識システムを用いたパイプラインを提案する。
IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-05-19T12:21:29Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文 参考訳(メタデータ) (2024-06-30T20:41:02Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - VANI: Very-lightweight Accent-controllable TTS for Native and Non-native
speakers with Identity Preservation [25.210244564579522]
非常に軽量な多言語アクセント制御型音声合成システムVANIを紹介する。
我々は、ICASSP Signal Processing Grand Challengeの一部としてLIMMITS 2023向けにリリースされたIndic言語データセットを使用して、3つの異なる言語で音声を合成する。
論文 参考訳(メタデータ) (2023-03-14T01:55:41Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。