論文の概要: Aligning Speakers: Evaluating and Visualizing Text-based Diarization
Using Efficient Multiple Sequence Alignment (Extended Version)
- arxiv url: http://arxiv.org/abs/2309.07677v1
- Date: Thu, 14 Sep 2023 12:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 14:58:18.095081
- Title: Aligning Speakers: Evaluating and Visualizing Text-based Diarization
Using Efficient Multiple Sequence Alignment (Extended Version)
- Title(参考訳): 適応話者:効率的な多重シーケンスアライメントを用いたテキストベースダイアリゼーションの評価と可視化(拡張版)
- Authors: Chen Gong, Peilin Wu, Jinho D. Choi
- Abstract要約: テキストベースのDiarization Error RateとDiarization F1という2つの新しい指標が提案されている。
私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、話者ダイアリゼーションにおいてより包括的な分析を可能にします。
- 参考スコア(独自算出の注目度): 21.325463387256807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel evaluation approach to text-based speaker
diarization (SD), tackling the limitations of traditional metrics that do not
account for any contextual information in text. Two new metrics are proposed,
Text-based Diarization Error Rate and Diarization F1, which perform utterance-
and word-level evaluations by aligning tokens in reference and hypothesis
transcripts. Our metrics encompass more types of errors compared to existing
ones, allowing us to make a more comprehensive analysis in SD. To align tokens,
a multiple sequence alignment algorithm is introduced that supports multiple
sequences in the reference while handling high-dimensional alignment to the
hypothesis using dynamic programming. Our work is packaged into two tools,
align4d providing an API for our alignment algorithm and TranscribeView for
visualizing and evaluating SD errors, which can greatly aid in the creation of
high-quality data, fostering the advancement of dialogue systems.
- Abstract(参考訳): 本稿ではテキストベースの話者ダイアリゼーション(SD)に対する新たな評価手法を提案する。
テキストベースのダイアリゼーション誤り率とダイアリゼーションF1という2つの新しい指標が提案されている。
私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、SDでより包括的な分析を可能にします。
トークンをアライメントするために、動的プログラミングを用いて仮説に対する高次元アライメントを処理しながら、参照中の複数のシーケンスをサポートする多重シーケンスアライメントアルゴリズムが導入された。
当社の作業は,アライメントアルゴリズム用のAPIを提供するaligned4dと,SDエラーの可視化と評価を行うTranscribeViewの2つのツールにまとめられている。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - D2CSE: Difference-aware Deep continuous prompts for Contrastive Sentence
Embeddings [3.04585143845864]
本稿では,文の埋め込みを学習するコントラスト型文埋め込み(D2CSE)のための差分認識型深部連続プロンプトについて述べる。
最先端のアプローチと比較して、D2CSEは類似した文の微妙な違いを区別する例外的な文ベクトルを計算する。
論文 参考訳(メタデータ) (2023-04-18T13:45:07Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。