論文の概要: A stylometric analysis of speaker attribution from speech transcripts
- arxiv url: http://arxiv.org/abs/2512.13667v1
- Date: Mon, 15 Dec 2025 18:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.820862
- Title: A stylometric analysis of speaker attribution from speech transcripts
- Title(参考訳): 音声テキストからの話者属性のテクスチャ的分析
- Authors: Cristina Aggazzotti, Elizabeth Allyn Smith,
- Abstract要約: 法医学的な科学者は、身代金の請求、隠蔽記録、自殺届の疑い、匿名のオンライン通信など、未知の話者や作家を特定する必要があることが多い。
音声領域における話者認識は通常、音声の音声的または音響的特性を調べる。
話者が音声を偽装したり、音声合成ソフトを使用すれば、音声特性はもはや信頼できないかもしれない。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forensic scientists often need to identify an unknown speaker or writer in cases such as ransom calls, covert recordings, alleged suicide notes, or anonymous online communications, among many others. Speaker recognition in the speech domain usually examines phonetic or acoustic properties of a voice, and these methods can be accurate and robust under certain conditions. However, if a speaker disguises their voice or employs text-to-speech software, vocal properties may no longer be reliable, leaving only their linguistic content available for analysis. Authorship attribution methods traditionally use syntactic, semantic, and related linguistic information to identify writers of written text (authorship attribution). In this paper, we apply a content-based authorship approach to speech that has been transcribed into text, using what a speaker says to attribute speech to individuals (speaker attribution). We introduce a stylometric method, StyloSpeaker, which incorporates character, word, token, sentence, and style features from the stylometric literature on authorship, to assess whether two transcripts were produced by the same speaker. We evaluate this method on two types of transcript formatting: one approximating prescriptive written text with capitalization and punctuation and another normalized style that removes these conventions. The transcripts' conversation topics are also controlled to varying degrees. We find generally higher attribution performance on normalized transcripts, except under the strongest topic control condition, in which overall performance is highest. Finally, we compare this more explainable stylometric model to black-box neural approaches on the same data and investigate which stylistic features most effectively distinguish speakers.
- Abstract(参考訳): 法医学的な科学者は、身代金の請求、隠蔽記録、自殺届の疑い、匿名のオンライン通信など、未知の話者や作家を特定する必要があることが多い。
音声領域における話者認識は、通常、音声の音響的特性や音響的特性を検査するが、これらの手法は特定の条件下では正確で堅牢である。
しかし、もし話者が音声を偽装したり、音声合成ソフトウェアを使ったりすると、音声特性はもはや信頼性が無くなり、言語コンテンツのみが分析に利用できるようになる。
著者帰属法は伝統的に、テキスト(著者帰属)の著者を特定するために構文、意味、関連する言語情報を使用する。
本稿では、話者が発話を個人(話者帰属)とみなす言葉を用いて、テキストに書き起こされた音声に対して、コンテンツに基づくオーサリングアプローチを適用する。
本研究では,2つの文字が同一話者によって生成されているかどうかを評価するために,著者に関するテクスチャ的文献から,文字,単語,トークン,文,スタイルの特徴を取り入れたスタイル的手法であるStyloSpeakerを紹介する。
本手法は、大文字化と句読解による記述文の近似と、これらの規則を除去する正規化スタイルの2つのタイプで評価する。
書き起こしの会話の話題も、様々な程度に制御されている。
一般に正規化文字の帰属性は最も高いトピック制御条件下では高いが,全体のパフォーマンスは高い。
最後に、このより説明可能なスタイルモデルと同一データ上のブラックボックスニューラルアプローチを比較し、どのスタイル特徴が話者を最も効果的に区別するかを調べる。
関連論文リスト
- ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。
多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。
本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T05:53:37Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。