Fugu-MT 論文翻訳(概要): Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection

論文の概要: Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection

arxiv url: http://arxiv.org/abs/2401.04868v1
Date: Wed, 10 Jan 2024 01:09:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 15:40:19.441229
Title: Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection
Title（参考訳）: 音声活動予測を用いたリアルタイム・連続ターンテイク予測
Authors: Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
Abstract要約: このシステムは音声活動予測(VAP)モデルに基づいており、対話ステレオ音声を直接将来の音声活動にマッピングする。入力文脈の音声長の影響について検討し,提案方式がCPU設定でリアルタイムに動作可能であることを示す。
参考スコア（独自算出の注目度）: 26.922663719154343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A demonstration of a real-time and continuous turn-taking prediction system is presented. The system is based on a voice activity projection (VAP) model, which directly maps dialogue stereo audio to future voice activities. The VAP model includes contrastive predictive coding (CPC) and self-attention transformers, followed by a cross-attention transformer. We examine the effect of the input context audio length and demonstrate that the proposed system can operate in real-time with CPU settings, with minimal performance degradation.
Abstract（参考訳）: リアルタイムかつ連続的なターンテイク予測システムの実演を示す。このシステムは音声活動予測(VAP)モデルに基づいており、対話ステレオ音声を直接将来の音声活動にマッピングする。 vapモデルは、コントラスト予測符号化(cpc)と自己着脱トランス、続いてクロス着脱トランスを含む。入力文脈の音声長の影響について検討し,CPU設定による性能劣化を最小限に抑えて,提案方式がリアルタイムに動作可能であることを示す。

関連論文リスト

Prompt-Guided Turn-Taking Prediction [20.002659517035557]
ターンテイク予測モデルは、音声対話システムや会話ロボットにおいて不可欠な要素である。近年のアプローチでは、トランスフォーマーに基づくアーキテクチャを活用して、音声活動の連続的およびリアルタイムな予測を行っている。本稿では,テキストのプロンプトによってターンテイク予測を動的に制御できる新しいモデルを提案する。
論文参考訳（メタデータ） (2025-06-26T12:49:07Z)
PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [78.61911985138795]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T06:46:19Z)
Lla-VAP: LSTM Ensemble of Llama and VAP for Turn-Taking Prediction [0.0]
本プロジェクトは,マルチモーダルアンサンブルアプローチを用いて,ターンテイク予測のための既存の戦略を拡張した。我々は,スクリプト化されたシナリオと記述されていないシナリオの両方において,TRPを識別する精度と効率を改善することを目的としている。
論文参考訳（メタデータ） (2024-12-24T00:20:38Z)
Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文参考訳（メタデータ） (2024-10-21T11:57:56Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文参考訳（メタデータ） (2023-06-02T10:43:42Z)
Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文参考訳（メタデータ） (2022-12-09T05:57:46Z)
Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition [29.05833230733178]
音声・視覚対応の助けを借りて、入力ノイズの多い音声音声を強化するために、視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。 The proposed V-CAFE is designed to capture the transition of lip movement、すなわち visual context, and to generate a noise reduction mask by consider the obtained visual context。提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
論文参考訳（メタデータ） (2022-07-13T08:07:19Z)
Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。 TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文参考訳（メタデータ） (2022-03-30T23:03:19Z)
With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文参考訳（メタデータ） (2021-11-01T15:27:35Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。 TS-VADは各時間フレーム上の各話者の活動を直接予測する。 CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文参考訳（メタデータ） (2020-05-14T21:24:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。