Fugu-MT 論文翻訳(概要): On the Use of Audio to Improve Dialogue Policies

論文の概要: On the Use of Audio to Improve Dialogue Policies

arxiv url: http://arxiv.org/abs/2410.13385v1
Date: Thu, 17 Oct 2024 09:37:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.855693
Title: On the Use of Audio to Improve Dialogue Policies
Title（参考訳）: 音声による対話ポリシーの改善について
Authors: Daniel Roncel, Federico Costa, Javier Hernando,
Abstract要約: 音声とテキストの埋め込みを組み合わせることで、音声情報を追加する新しいアーキテクチャを提案する。実験により、音声埋め込み対応対話ポリシーがテキストベースよりも優れていることが示された。
参考スコア（独自算出の注目度）: 9.35212661749004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the significant progress of speech technologies, spoken goal-oriented dialogue systems are becoming increasingly popular. One of the main modules of a dialogue system is typically the dialogue policy, which is responsible for determining system actions. This component usually relies only on audio transcriptions, being strongly dependent on their quality and ignoring very important extralinguistic information embedded in the user's speech. In this paper, we propose new architectures to add audio information by combining speech and text embeddings using a Double Multi-Head Attention component. Our experiments show that audio embedding-aware dialogue policies outperform text-based ones, particularly in noisy transcription scenarios, and that how text and audio embeddings are combined is crucial to improve performance. We obtained a 9.8% relative improvement in the User Request Score compared to an only-text-based dialogue system on the DSTC2 dataset.
Abstract（参考訳）: 音声技術の進歩により、音声目標指向対話システムはますます人気が高まっている。対話システムの主要なモジュールの1つは、通常、対話ポリシーであり、システムアクションを決定する責任を負う。このコンポーネントは通常、音声の書き起こしにのみ依存し、その品質に強く依存し、ユーザの音声に埋め込まれた非常に重要な外言語情報を無視する。本稿では,ダブルマルチヘッド・アテンション・コンポーネントを用いた音声とテキストの埋め込みを組み合わせることで,音声情報を追加する新しいアーキテクチャを提案する。実験の結果,特にノイズの多い書き起こしシナリオにおいて,音声埋め込み対応の対話ポリシーはテキストベースよりも優れており,テキストと音声の埋め込みの組み合わせは性能向上に不可欠であることが示唆された。 DSTC2データセット上のテキストベースの対話システムと比較して,ユーザ要求スコアが9.8%向上した。

関連論文リスト

Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
Do We Still Need Audio? Rethinking Speaker Diarization with a Text-Based Approach Using Multiple Prediction Models [10.582167003047058]
本稿では,対話における文レベルの話者変化検出に着目したテキストベースの手法を用いて,話者ダイアリゼーション(SD)に新たなアプローチを提案する。 SPM(Single Prediction Model)とMPM(Multiple Prediction Model)の2つのモデルが開発され、どちらも話者変化の同定において大幅に改善されている。
論文参考訳（メタデータ） (2025-06-12T22:31:02Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文参考訳（メタデータ） (2023-08-29T06:27:58Z)
FCC: Fusing Conversation History and Candidate Provenance for Contextual Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-03-31T23:58:28Z)
A Benchmark for Understanding and Generating Dialogue between Characters in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。 DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文参考訳（メタデータ） (2022-09-18T10:19:04Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文参考訳（メタデータ） (2021-12-13T15:49:36Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
Hierarchical Summarization for Longform Spoken Dialog [1.995792341399967]
音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は依然として著しく貧弱である。テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの追加的な課題を生んでいる。本稿では、2段階のASRとテキスト要約パイプラインを提案し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-08-21T23:31:31Z)
Integrating Dialog History into End-to-End Spoken Language Understanding Systems [37.08876551722831]
対話履歴の重要性と、それをエンドツーエンドの音声言語理解システムに効果的に組み込む方法について検討する。音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-08-18T22:24:11Z)
Domain State Tracking for a Simplified Dialogue System [3.962145079528281]
対話履歴全体ではなく,入力コンテキストを簡略化したタスク指向対話システムであるdotsを提案する。 DoTSは、MultiWOZの以前の最先端モデルと比較して、それぞれ1.09ポイントと1.24ポイントのインフォメーションレートと成功率を改善する。
論文参考訳（メタデータ） (2021-03-11T13:00:54Z)
Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文参考訳（メタデータ） (2020-05-27T02:05:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。