Fugu-MT 論文翻訳(概要): Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

論文の概要: Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

arxiv url: http://arxiv.org/abs/2603.26246v1
Date: Fri, 27 Mar 2026 10:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.43852
Title: Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
Title（参考訳）: 蒸留会話:LLMに基づくASRのための会話音声コンテキストの抽象圧縮
Authors: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke,
Abstract要約: 複数モーダルコンテキストがLLMベースのASRを改善するかどうかを考察する。マルチターン学習を指導した後、会話のコンテキストは、主に文脈的実体の認識に役立ちます。本稿では,先行するターンの音声部分を,対応するテキストを明示的に保持しつつ,一定の数の学習潜在トークンに置き換える抽象圧縮を提案する。
参考スコア（独自算出の注目度）: 14.082117520000873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.
Abstract（参考訳）: 標準LLMベースの音声認識システムは、通常、発話を単独で処理し、会話コンテキストを活用する能力を制限する。本研究では,従来のマルチモーダルコンテキストがLLMベースのASRを改善し,そのコンテキストを効率的に表現する方法を検討する。マルチターン学習を指導した後、会話のコンテキストは、主に文脈的実体の認識に役立ちます。しかし,会話長とともに先行音声トークンシーケンスが急速に増加するため,生のコンテキストでの条件付けは高価である。そこで本研究では,先行旋律の音声部分を,対応する書き起こしを明示的に保持しつつ,一定の数の学習潜在トークンに置き換える抽象圧縮を提案する。ドメイン内テストセットとドメイン外テストセットの両方で、圧縮されたモデルは、より小さなプレターンオーディオフットプリントで、生コンテキスト条件の利得の一部を回復する。また、圧縮設定とそのトレードオフのターゲット分析も提供する。

関連論文リスト

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [66.61445564139052]
音声のみのアーキテクチャ(AudioSeg)は,長文音声をコヒーレントなセクションに分割するためのテキストベースのアプローチよりも優れていることを示す。 YTSegの実験では、AudioSegはテキストベースのアプローチを著しく上回り、停止は最大の音響的利得をもたらし、MLLMは文脈長と弱命令によって制限される。
論文参考訳（メタデータ） (2026-02-09T18:28:10Z)
SW-ASR: A Context-Aware Hybrid ASR Pipeline for Robust Single Word Speech Recognition [0.8921166277011348]
単一単語自動音声認識は言語文脈の欠如による課題である。本稿では,最近のディープラーニング手法を概観し,ロバストな単一単語検出のためのモジュラーフレームワークを提案する。我々は、Google Speech Commandsデータセットと、電話やメッセージングプラットフォームから収集された実世界のデータセットについて、帯域幅に制限のある条件下で評価する。
論文参考訳（メタデータ） (2026-01-28T04:50:04Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文参考訳（メタデータ） (2024-09-25T20:59:12Z)
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文参考訳（メタデータ） (2024-01-05T17:58:10Z)
Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文参考訳（メタデータ） (2023-12-15T15:46:02Z)
AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文参考訳（メタデータ） (2023-11-12T06:56:14Z)
Learning to Ask Conversational Questions by Optimizing Levenshtein Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-30T08:44:19Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。