論文の概要: Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026
- arxiv url: http://arxiv.org/abs/2606.04730v1
- Date: Wed, 03 Jun 2026 11:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.698847
- Title: Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026
- Title(参考訳): KITのIWSLT 2026への提出にともなう多言語音声教育
- Authors: Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel,
- Abstract要約: 我々は、制約のない環境で、KITのLong and Short Instruction followingのトラックを提示する。
提案手法では,短文コーパスを長文学習データに変換する汎用データ拡張パイプラインを組み合わせる。
確率に基づく再ランク付けは、ASRには非常に有効であるが、意味的タスクを体系的に劣化させることを示す。
- 参考スコア(独自算出の注目度): 57.48615919717867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of Large Language Models, single-task and token-based multi-task models have evolved into instruction-based systems that infer task and target language implicitly from natural language prompts. This trend is reflected in IWSLT's Instruction Following Track, which this year introduced new tasks including an unknown surprise task, posing a genuine challenge against overfitting to known tasks. We present KIT's submission to the Long and Short Instruction Following tracks in the unconstrained setting. Our approach combines a general data augmentation pipeline that converts short-form corpora into long-form training data through segment concatenation, LLM-based label generation, and cross-lingual translation, yielding over 1M instances across six tasks and four languages. We further show that likelihood-based re-ranking, while highly effective for ASR, systematically degrades semantic tasks by spuriously selecting candidates generated from segmented audio processing rather than holistic long-form inference, a failure mode resolved by combining likelihood with Minimum Bayes Risk decoding.
- Abstract(参考訳): 大規模言語モデルの出現により、シングルタスクとトークンベースのマルチタスクモデルは、自然言語のプロンプトからタスクとターゲット言語を暗黙的に推論する命令ベースのシステムへと進化してきた。
この傾向は、IWSLTのInstruction following Trackに反映されており、今年は未知のサプライズタスクを含む新しいタスクを導入した。
我々は、制約のない環境で、KITのLong and Short Instruction followingのトラックを提示する。
提案手法は,ショートフォームコーパスをセグメント結合,LLMに基づくラベル生成,言語間翻訳によって長文学習データに変換する汎用データ拡張パイプラインを組み合わせることで,6つのタスクと4つの言語に100万以上のインスタンスを生成する。
さらに、確率に基づく再ランク付けは、ASRにとって非常に効果的である一方で、最小ベイズリスク復号法と組み合わせて解決された故障モードである、全体的長文推論ではなく、セグメント化された音声処理から生成された候補を急激に選択することで、意味的タスクを体系的に劣化させることを示した。
関連論文リスト
- KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025 [56.61209412965054]
本稿では、カールスルーエ工科大学のオフラインSTとインストラクションフォロー(IF)トラックへの提出について紹介する。
文書レベルの文脈を持つLLMを用いて出力を融合した複数の自動音声認識システムを用いたパイプラインを提案する。
IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-05-19T12:21:29Z) - Few-Shot Multilingual Open-Domain QA from 5 Examples [44.04243892727856]
我々は,大規模言語モデル(LLM)から大規模多言語データを合成するためのemphfew-shot学習手法を提案する。
提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で生成した高品質な合成多言語データを訓練する。
最終的なモデルである textscFsModQA は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
論文 参考訳(メタデータ) (2025-02-27T03:24:57Z) - Contrastive Learning for Task-Independent SpeechLLM-Pretraining [14.531386555183596]
大規模言語モデル(LLM)は自然言語処理に優れている。
タスク固有の微調整は、リスク、データ要求、計算コストの過度な適合によって制限される。
スケーラブルな2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-20T09:33:31Z) - An End-to-End Speech Summarization Using Large Language Model [7.562198375754054]
音声要約(SSum)は、音声コンテンツから人間に似たテキスト要約を生成することを目的としている。
大規模言語モデル(LLM)とマルチモーダル情報融合の研究は、新たな洞察をもたらした。
本稿では、Q-Formerを音声テキストモダリティのコネクタとして利用するエンドツーエンドのSSumモデルを提案する。
論文 参考訳(メタデータ) (2024-07-02T07:22:57Z) - Fine-tuning Large Language Models with Sequential Instructions [2.546845645875049]
既存の命令調整モデルでは、複数の命令でクエリに応答するのに苦労していることがわかった。
我々は、微調整データの一部がシーケンシャルに関連したタスクの連鎖を含むべきであると論じる。
既存のデータセットの命令を多種多様な複雑なシーケンシャルな命令に変換することで、このプロセスを自動化する。
逐次指導チューニングを行ったモデルでは、符号化、数学、オープンエンド生成の結果が改善された。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。