Fugu-MT 論文翻訳(概要): Aligning Speakers: Evaluating and Visualizing Text-based Diarization Using Efficient Multiple Sequence Alignment (Extended Version)

論文の概要: Aligning Speakers: Evaluating and Visualizing Text-based Diarization Using Efficient Multiple Sequence Alignment (Extended Version)

arxiv url: http://arxiv.org/abs/2309.07677v1
Date: Thu, 14 Sep 2023 12:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 14:58:18.095081
Title: Aligning Speakers: Evaluating and Visualizing Text-based Diarization Using Efficient Multiple Sequence Alignment (Extended Version)
Title（参考訳）: 適応話者:効率的な多重シーケンスアライメントを用いたテキストベースダイアリゼーションの評価と可視化(拡張版)
Authors: Chen Gong, Peilin Wu, Jinho D. Choi
Abstract要約: テキストベースのDiarization Error RateとDiarization F1という2つの新しい指標が提案されている。私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、話者ダイアリゼーションにおいてより包括的な分析を可能にします。
参考スコア（独自算出の注目度）: 21.325463387256807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a novel evaluation approach to text-based speaker diarization (SD), tackling the limitations of traditional metrics that do not account for any contextual information in text. Two new metrics are proposed, Text-based Diarization Error Rate and Diarization F1, which perform utterance- and word-level evaluations by aligning tokens in reference and hypothesis transcripts. Our metrics encompass more types of errors compared to existing ones, allowing us to make a more comprehensive analysis in SD. To align tokens, a multiple sequence alignment algorithm is introduced that supports multiple sequences in the reference while handling high-dimensional alignment to the hypothesis using dynamic programming. Our work is packaged into two tools, align4d providing an API for our alignment algorithm and TranscribeView for visualizing and evaluating SD errors, which can greatly aid in the creation of high-quality data, fostering the advancement of dialogue systems.
Abstract（参考訳）: 本稿ではテキストベースの話者ダイアリゼーション(SD)に対する新たな評価手法を提案する。テキストベースのダイアリゼーション誤り率とダイアリゼーションF1という2つの新しい指標が提案されている。私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、SDでより包括的な分析を可能にします。トークンをアライメントするために、動的プログラミングを用いて仮説に対する高次元アライメントを処理しながら、参照中の複数のシーケンスをサポートする多重シーケンスアライメントアルゴリズムが導入された。当社の作業は,アライメントアルゴリズム用のAPIを提供するaligned4dと,SDエラーの可視化と評価を行うTranscribeViewの2つのツールにまとめられている。

関連論文リスト

A Text-To-Text Alignment Algorithm for Better Evaluation of Modern Speech Recognition Systems [23.218327444488164]
現代のニューラルネットワークは、音声認識ベンチマークのパフォーマンスを大幅に改善した。稀な用語、名前付きエンティティ、ドメイン固有の語彙の誤りは、より簡潔であるが、集約されたメトリクスによって隠されている。本稿では,動的プログラミングとビーム探索スコアリングを結合したアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-29T08:53:02Z)
PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文参考訳（メタデータ） (2025-02-10T05:50:26Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文参考訳（メタデータ） (2024-11-21T13:05:18Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文参考訳（メタデータ） (2024-09-25T17:05:55Z)
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-09-23T12:57:24Z)
MISMATCH: Fine-grained Evaluation of Machine-generated Text with Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。 7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文参考訳（メタデータ） (2023-06-18T01:38:53Z)
D2CSE: Difference-aware Deep continuous prompts for Contrastive Sentence Embeddings [3.04585143845864]
本稿では,文の埋め込みを学習するコントラスト型文埋め込み(D2CSE)のための差分認識型深部連続プロンプトについて述べる。最先端のアプローチと比較して、D2CSEは類似した文の微妙な違いを区別する例外的な文ベクトルを計算する。
論文参考訳（メタデータ） (2023-04-18T13:45:07Z)
Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文参考訳（メタデータ） (2022-04-04T04:50:32Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-11-28T12:51:04Z)
Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文参考訳（メタデータ） (2020-02-10T03:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。