Fugu-MT 論文翻訳(概要): Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content

論文の概要: Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content

arxiv url: http://arxiv.org/abs/2406.10073v1
Date: Fri, 14 Jun 2024 14:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 13:25:54.910275
Title: Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content
Title（参考訳）: フレンチテレビとラジオコンテンツにおける音声対話のための音声-ターン境界の終端性検出
Authors: Rémi Uro, Marie Tahon, David Doukhan, Antoine Laurent, Albert Rilliard,
Abstract要約: ターン終端性の分析は、自発的会話におけるターンテイクのダイナミクスを研究するのに有用である。本稿では,複数話者設定における音声発話を端末または非端末として自動分類する。
参考スコア（独自算出の注目度）: 6.610358586814531
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Transition Relevance Places are defined as the end of an utterance where the interlocutor may take the floor without interrupting the current speaker --i.e., a place where the turn is terminal. Analyzing turn terminality is useful to study the dynamic of turn-taking in spontaneous conversations. This paper presents an automatic classification of spoken utterances as Terminal or Non-Terminal in multi-speaker settings. We compared audio, text, and fusions of both approaches on a French corpus of TV and Radio extracts annotated with turn-terminality information at each speaker change. Our models are based on pre-trained self-supervised representations. We report results for different fusion strategies and varying context sizes. This study also questions the problem of performance variability by analyzing the differences in results for multiple training runs with random initialization. The measured accuracy would allow the use of these models for large-scale analysis of turn-taking.
Abstract（参考訳）: トランジッション・レバレンス・プレース(Transition Relevance Places)は、現在話者、すなわちターンが終端となる場所を中断することなく、インターロケータが床を取ることができる発話の終端として定義される。ターン終端性の分析は、自発的会話におけるターンテイクのダイナミクスを研究するのに有用である。本稿では,複数話者設定における音声発話を端末または非端末として自動分類する。音声, テキスト, 融合の両手法を, 話者ごとのターン終端情報を付加したTVとラジオのコーパスで比較した。我々のモデルは、事前訓練された自己教師付き表現に基づいている。異なる融合戦略と異なるコンテキストサイズに対する結果について報告する。また, ランダム初期化による複数トレーニングの実行結果の違いを分析することで, 性能変動の問題を提起する。測定精度は、ターンテイクの大規模解析にこれらのモデルを使用することを可能にした。

関連論文リスト

Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。 47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文参考訳（メタデータ） (2025-12-16T19:26:44Z)
Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics [54.03209351287654]
本稿では,音声対話システムのターンテイク能力を評価するための新しい評価プロトコルを提案する。本稿では,既存の音声対話システムをターンテイクイベントの実行能力に基づいて評価する,初めての包括的ユーザスタディを提案する。我々は、高度な対話型AIシステムの開発を促進するために、評価プラットフォームをオープンソース化する。
論文参考訳（メタデータ） (2025-03-03T04:46:04Z)
kNN For Whisper And Its Effect On Bias And Speaker Adaptation [10.174848090916669]
token-level $k$ Near neighbor search (k$NN) は、代わりに外部データストアで推論時間検索を使用する非パラメトリックな方法である。変換器のエンドツーエンド音声モデルであるWhisperが$k$NNの恩恵を受けていることを示す。
論文参考訳（メタデータ） (2024-10-24T15:32:52Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。長文対話要約のための話者強化事前学習手法を提案する。
論文参考訳（メタデータ） (2024-01-31T04:50:00Z)
Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文参考訳（メタデータ） (2024-01-30T09:09:22Z)
Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文参考訳（メタデータ） (2023-08-21T17:59:02Z)
Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文参考訳（メタデータ） (2022-06-04T19:40:02Z)
CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文参考訳（メタデータ） (2021-09-01T04:18:19Z)
The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文参考訳（メタデータ） (2021-08-06T18:04:24Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。