論文の概要: How Good is Automatic Segmentation as a Multimodal Discourse Annotation
Aid?
- arxiv url: http://arxiv.org/abs/2305.17350v1
- Date: Sat, 27 May 2023 03:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:02:39.911522
- Title: How Good is Automatic Segmentation as a Multimodal Discourse Annotation
Aid?
- Title(参考訳): マルチモーダルな談話アノテーションとしての自動セグメンテーションはどの程度有効か?
- Authors: Corbin Terpstra, Ibrahim Khebour, Mariah Bradford, Brett Wisniewski,
Nikhil Krishnaswamy, Nathaniel Blanchard
- Abstract要約: 我々は,協調問題解決のための支援として,異なる発話分割手法の質を評価する。
また, 音素発声は, 自動分節音声と最小の対応を保ち, 異なる分節音声を用いた分節音声も一致しないことを示す。
- 参考スコア(独自算出の注目度): 3.3861948721202233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative problem solving (CPS) in teams is tightly coupled with the
creation of shared meaning between participants in a situated, collaborative
task. In this work, we assess the quality of different utterance segmentation
techniques as an aid in annotating CPS. We (1) manually transcribe utterances
in a dataset of triads collaboratively solving a problem involving dialogue and
physical object manipulation, (2) annotate collaborative moves according to
these gold-standard transcripts, and then (3) apply these annotations to
utterances that have been automatically segmented using toolkits from Google
and OpenAI's Whisper. We show that the oracle utterances have minimal
correspondence to automatically segmented speech, and that automatically
segmented speech using different segmentation methods is also inconsistent. We
also show that annotating automatically segmented speech has distinct
implications compared with annotating oracle utterances--since most annotation
schemes are designed for oracle cases, when annotating automatically-segmented
utterances, annotators must invoke other information to make arbitrary
judgments which other annotators may not replicate. We conclude with a
discussion of how future annotation specs can account for these needs.
- Abstract(参考訳): チーム内の協調的問題解決(CPS)は、位置し、協調的なタスクにおける参加者間の共通の意味の創造と密接に結びついています。
そこで本研究では,CPSのアノテートを支援するため,異なる発話セグメンテーション手法の質を評価する。
1) 対話と物理オブジェクト操作を含む課題を協調的に解決する三者組のデータセットにおいて,手作業で発話を書き起こし,(2)金本に準じた協調動作を注釈し,(3)google と openai のwhisper のツールキットを用いて自動的に分割された発話に適用する。
また, 音素発声は, 自動分節音声と最小の対応を保ち, 異なる分節音声を用いた分節音声も一致しないことを示す。
また,アノテータは,アノテータが他のアノテータが複製できない任意の判断を行うために,他の情報を呼び出す必要がある。
我々は、将来のアノテーション仕様がこれらのニーズをどのように説明できるかについての議論で締めくくります。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。