論文の概要: Approaching Dialogue State Tracking via Aligning Speech Encoders and LLMs
- arxiv url: http://arxiv.org/abs/2506.08633v1
- Date: Tue, 10 Jun 2025 09:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.255834
- Title: Approaching Dialogue State Tracking via Aligning Speech Encoders and LLMs
- Title(参考訳): 音声エンコーダとLLMによる対話状態追跡へのアプローチ
- Authors: Šimon Sedláček, Bolaji Yusuf, Ján Švec, Pradyoth Hegde, Santosh Kesiraju, Oldřich Plchot, Jan Černocký,
- Abstract要約: 本稿では, フル/ローラアダプタの微調整, 対話履歴におけるエージェントターンの効果, ファジィマッチングによる後処理など, システムのさまざまな側面の強調に焦点をあてる。
我々は、SpkenWOZデータセット上で実験を行い、さらに、Speech-Aware MultiWOZデータセットを使用してトレーニングデータを増強する。
我々の最高性能のWavLM + connector + OLMo-1Bアライメントモデルは、SpkenWOZテストセット(34.66% JGA)上での最先端化を実現しています。
- 参考スコア(独自算出の注目度): 3.3159397053990425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we approach spoken Dialogue State Tracking (DST) by bridging the representation spaces of speech encoders and LLMs via a small connector module, with a focus on fully open-sourced and open-data components (WavLM-large, OLMo). We focus on ablating different aspects of such systems including full/LoRA adapter fine-tuning, the effect of agent turns in the dialogue history, as well as fuzzy matching-based output post-processing, which greatly improves performance of our systems on named entities in the dialogue slot values. We conduct our experiments on the SpokenWOZ dataset, and additionally utilize the Speech-Aware MultiWOZ dataset to augment our training data. Ultimately, our best-performing WavLM + connector + OLMo-1B aligned models achieve state of the art on the SpokenWOZ test set (34.66% JGA), and our system with Gemma-2-9B-instruct further surpasses this result, reaching 42.17% JGA on SpokenWOZ test.
- Abstract(参考訳): 本研究では,音声エンコーダとLLMの表現空間を小さなコネクタモジュールでブリッジすることで,音声対話状態追跡(DST)にアプローチし,完全なオープンソースおよびオープンデータコンポーネント(WavLM-large,OLMo)に着目した。
我々は,対話履歴におけるエージェントの旋回効果や,ファジィマッチングに基づく出力後処理など,全LoRAアダプタの微調整など,システムのさまざまな側面の顕在化に注力し,対話スロット値における名前付きエンティティの性能を大幅に向上させる。
我々は、SpkenWOZデータセット上で実験を行い、さらに、Speech-Aware MultiWOZデータセットを使用してトレーニングデータを増強する。
最終的に、ベストパフォーマンスのWavLM + connector + OLMo-1Bアライメントモデルは、SpkenWOZテストセット(34.66% JGA)で最先端を実現し、Gemma-2-9Bインストラクタによるシステムはさらにこの結果を超え、SpkenWOZテストで42.17% JGAに達した。
関連論文リスト
- ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.806797579986075]
本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。
評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。
我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文 参考訳(メタデータ) (2025-03-11T15:24:02Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Retrieval Augmented End-to-End Spoken Dialog Models [20.896330994089283]
音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-02-02T18:23:09Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - Connecting Speech Encoder and Large Language Model for ASR [25.660343393359565]
大規模言語モデル(LLM)の印象的な能力と汎用性は、音声認識(ASR)において注目を集めている。
本稿では,完全連結層,マルチヘッドクロスアテンション,Q-Formerを含むコネクタとしてよく使用される3つの構造について比較検討する。
一般的に使用されているLibriSpeech、Common Voice、GigaSpeechデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-09-25T08:57:07Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。