Fugu-MT 論文翻訳(概要): Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models

論文の概要: Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models

arxiv url: http://arxiv.org/abs/2407.12094v1
Date: Tue, 16 Jul 2024 18:03:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 21:18:26.441629
Title: Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models
Title（参考訳）: 対話文中の話者の識別:事前学習型言語モデルを用いたテキストベースアプローチ
Authors: Minh Nguyen, Franck Dernoncourt, Seunghyun Yoon, Hanieh Deilamsalehy, Hao Tan, Ryan Rossi, Quan Hung Tran, Trung Bui, Thien Huu Nguyen,
Abstract要約: 本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
参考スコア（独自算出の注目度）: 83.7506131809624
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce an approach to identifying speaker names in dialogue transcripts, a crucial task for enhancing content accessibility and searchability in digital media archives. Despite the advancements in speech recognition, the task of text-based speaker identification (SpeakerID) has received limited attention, lacking large-scale, diverse datasets for effective model training. Addressing these gaps, we present a novel, large-scale dataset derived from the MediaSum corpus, encompassing transcripts from a wide range of media sources. We propose novel transformer-based models tailored for SpeakerID, leveraging contextual cues within dialogues to accurately attribute speaker names. Through extensive experiments, our best model achieves a great precision of 80.3\%, setting a new benchmark for SpeakerID. The data and code are publicly available here: \url{https://github.com/adobe-research/speaker-identification}
Abstract（参考訳）: 本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高めるための重要な課題である,対話テキスト中の話者名同定手法を提案する。音声認識の進歩にもかかわらず、テキストベースの話者識別(SpeakerID)のタスクには、効果的なモデルトレーニングのための大規模で多様なデータセットが欠如している。これらのギャップに対処するために,メディアサムコーパスから派生した,幅広いメディアソースからの転写を含む,新しい大規模データセットを提案する。本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。広範囲な実験を通して、我々の最良のモデルは 80.3\% の精度を達成し、SpeakerID のベンチマークを新たに設定する。データとコードはここで公開されている。 \url{https://github.com/adobe-research/speaker-identification}

関連論文リスト

CoLMbo: Speaker Language Model for Descriptive Profiling [56.57669166980832]
話者認識システムは、しばしば分類タスクに限られ、詳細な話者特性を生成するのに苦労する。本稿では、話者エンコーダとプロンプトベースの条件付けを統合することで、これらの制約に対処する話者言語モデル(SLM)であるCoLMboを紹介する。 CoLMboはユーザ定義のプロンプトを利用して、新しい話者特性に動的に適応し、カスタマイズされた記述を提供する。
論文参考訳（メタデータ） (2025-06-11T03:50:16Z)
Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues [2.048226951354646]
我々は,テキストベース話者識別を改善するために,大規模な事前学習モデルからのファジィ指紋の使用について検討する。話者固有のトークンとコンテキスト認識モデリングを統合し、会話コンテキストが精度を大幅に向上させることを示す。あいまいな発話を分析し、話者非依存の線を検出するメカニズムを提案する。
論文参考訳（メタデータ） (2025-04-21T08:44:33Z)
Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T20:27:34Z)
Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文参考訳（メタデータ） (2024-07-02T03:22:41Z)
SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。長文対話要約のための話者強化事前学習手法を提案する。
論文参考訳（メタデータ） (2024-01-31T04:50:00Z)
Personalizing Keyword Spotting with Speaker Information [11.4457776449367]
キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。特徴量線形変調(FiLM)を用いたキーワードスポッティングに話者情報を統合する新しい手法を提案する。提案手法では,パラメータ数が1%増加し,レイテンシと計算コストが最小限に抑えられた。
論文参考訳（メタデータ） (2023-11-06T12:16:06Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
Improved Relation Networks for End-to-End Speaker Verification and Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文参考訳（メタデータ） (2022-03-31T17:44:04Z)
Improving speaker de-identification with functional data analysis of f0 trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文参考訳（メタデータ） (2022-03-31T01:34:15Z)
Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。重複した音声における話者カウント、音声認識、話者識別を統一する。
論文参考訳（メタデータ） (2020-06-19T02:05:18Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。