Fugu-MT 論文翻訳(概要): Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts?

論文の概要: Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts?

arxiv url: http://arxiv.org/abs/2311.07564v1
Date: Mon, 13 Nov 2023 18:54:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 12:57:18.654557
Title: Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts?
Title（参考訳）: 著者帰属モデルは音声文中の話者を区別できるか?
Authors: Cristina Aggazzotti, Nicholas Andrews, Elizabeth Allyn Smith
Abstract要約: オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定する問題である。本稿では,新たな課題を提起する書き起こし音声の属性について考察する。会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 4.662759517294026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Authorship verification is the problem of determining if two distinct writing samples share the same author and is typically concerned with the attribution of written text. In this paper, we explore the attribution of transcribed speech, which poses novel challenges. The main challenge is that many stylistic features, such as punctuation and capitalization, are not available or reliable. Therefore, we expect a priori that transcribed speech is a more challenging domain for attribution. On the other hand, other stylistic features, such as speech disfluencies, may enable more successful attribution but, being specific to speech, require special purpose models. To better understand the challenges of this setting, we contribute the first systematic study of speaker attribution based solely on transcribed speech. Specifically, we propose a new benchmark for speaker attribution focused on conversational speech transcripts. To control for spurious associations of speakers with topic, we employ both conversation prompts and speakers' participating in the same conversation to construct challenging verification trials of varying difficulties. We establish the state of the art on this new benchmark by comparing a suite of neural and non-neural baselines, finding that although written text attribution models achieve surprisingly good performance in certain settings, they struggle in the hardest settings we consider.
Abstract（参考訳）: 著者検証は、2つの異なる文章サンプルが同じ著者を共有しているかどうかを判断する問題であり、典型的には文章の帰属に関係している。本稿では,新たな課題を提起する書き起こし音声の属性について考察する。主な課題は、句読点や資本化といった多くのスタイル的特徴が利用可能あるいは信頼性がないことである。したがって,文字起こし音声は帰属のより困難な領域である,という優先順位が期待できる。一方、他のスタイル的特徴、例えば音声不流動は、より成功した帰属を可能にするが、言語に特有であるために、特別な目的のモデルを必要とする。この設定の課題をよりよく理解するために,音声認識のみに基づく話者帰属に関する最初の体系的研究を行った。具体的には,会話音声の書き起こしに着目した話者属性のための新しいベンチマークを提案する。話題を伴う話者の急激な関連性を制御するため,同じ会話に参加する話者の会話プロンプトと話者の双方を用いて,様々な難易度の検証試験を構築する。我々は、ニューラルベースラインと非ニューラルベースラインのスイートを比較して、この新たなベンチマークにおける技術の現状を確立し、テキスト属性モデルが、特定の設定で驚くほど優れたパフォーマンスを達成するにもかかわらず、最も難しい設定で苦労していることを発見した。

関連論文リスト

LoRP-TTS: Low-Rank Personalized Text-To-Speech [0.0]
音声合成モデルは、テキストを自然な音声に変換する。 Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
論文参考訳（メタデータ） (2025-02-11T14:00:12Z)
ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文参考訳（メタデータ） (2025-01-10T05:53:37Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文参考訳（メタデータ） (2024-01-31T18:06:29Z)
EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。音声合成と音声合成の2つの課題に適用する。どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文参考訳（メタデータ） (2023-12-21T17:47:33Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Time out of Mind: Generating Rate of Speech conditioned on emotion and speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文参考訳（メタデータ） (2023-01-29T02:58:01Z)
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文参考訳（メタデータ） (2022-10-30T06:38:19Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)
A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文参考訳（メタデータ） (2022-03-18T01:36:25Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。モデルはトレーニングされ、公開されているデータセットで評価される。
論文参考訳（メタデータ） (2020-05-10T06:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。