論文の概要: Hierarchical Summarization for Longform Spoken Dialog
- arxiv url: http://arxiv.org/abs/2108.09597v1
- Date: Sat, 21 Aug 2021 23:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 06:10:24.150499
- Title: Hierarchical Summarization for Longform Spoken Dialog
- Title(参考訳): 長文音声対話のための階層的要約
- Authors: Daniel Li, Thomas Chen, Albert Tung, Lydia Chilton
- Abstract要約: 音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は依然として著しく貧弱である。
テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの追加的な課題を生んでいる。
本稿では、2段階のASRとテキスト要約パイプラインを提案し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.995792341399967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every day we are surrounded by spoken dialog. This medium delivers rich
diverse streams of information auditorily; however, systematically
understanding dialog can often be non-trivial. Despite the pervasiveness of
spoken dialog, automated speech understanding and quality information
extraction remains markedly poor, especially when compared to written prose.
Furthermore, compared to understanding text, auditory communication poses many
additional challenges such as speaker disfluencies, informal prose styles, and
lack of structure. These concerns all demonstrate the need for a distinctly
speech tailored interactive system to help users understand and navigate the
spoken language domain. While individual automatic speech recognition (ASR) and
text summarization methods already exist, they are imperfect technologies;
neither consider user purpose and intent nor address spoken language induced
complications. Consequently, we design a two stage ASR and text summarization
pipeline and propose a set of semantic segmentation and merging algorithms to
resolve these speech modeling challenges. Our system enables users to easily
browse and navigate content as well as recover from errors in these underlying
technologies. Finally, we present an evaluation of the system which highlights
user preference for hierarchical summarization as a tool to quickly skim audio
and identify content of interest to the user.
- Abstract(参考訳): 私たちは毎日会話に囲まれています。
この媒体は、監査的に多様な情報ストリームを提供するが、体系的にダイアログを理解することは、しばしば非自明である。
音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は、特に文章の散文と比較した場合、著しく貧弱である。
さらに、テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの課題をもたらす。
これらの懸念はすべて、ユーザが話し言葉のドメインを理解し、ナビゲートするのに役立つ、明確にカスタマイズされた対話システムの必要性を示しています。
個々の自動音声認識(ASR)とテキスト要約法はすでに存在するが、それらは不完全な技術であり、ユーザ目的や意図、音声言語による合併症への対処も考慮していない。
その結果、2段階のASRとテキスト要約パイプラインを設計し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
本システムでは,ユーザが簡単にコンテンツを閲覧・ナビゲートできるだけでなく,これらの基盤技術におけるエラーからの回復も可能である。
最後に,音声を素早くスキップし,ユーザの興味のある内容を識別するツールとして,階層的な要約のユーザの好みを強調するシステムの評価を行う。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Alexa Conversations: An Extensible Data-driven Approach for Building
Task-oriented Dialogue Systems [21.98135285833616]
従来の目標指向対話システムは、自然言語理解、対話状態追跡、政策学習、応答生成など、さまざまなコンポーネントに依存している。
スケーラブルかつデータ効率の高い,目標指向の対話システム構築のための新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-19T07:09:27Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Saying No is An Art: Contextualized Fallback Responses for Unanswerable
Dialogue Queries [3.593955557310285]
ほとんどの対話システムは、ランク付けされた応答を生成するためのハイブリッドアプローチに依存している。
ユーザクエリに対して文脈的に認識された応答を生成するニューラルネットワークを設計する。
我々の単純なアプローチでは、依存関係解析のルールと、質問応答ペアの合成データに基づいて微調整されたテキストからテキストへの変換を行う。
論文 参考訳(メタデータ) (2020-12-03T12:34:22Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。