論文の概要: Visual Cues Support Robust Turn-taking Prediction in Noise
- arxiv url: http://arxiv.org/abs/2505.22088v1
- Date: Wed, 28 May 2025 08:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.485785
- Title: Visual Cues Support Robust Turn-taking Prediction in Noise
- Title(参考訳): 騒音のロバストなターンテイク予測を支援するビジュアルキュー
- Authors: Sam O'Connor Russell, Naomi Harte,
- Abstract要約: 本研究は, PTTM の性能を, 一度展開すると発生する可能性のあるノイズの種類で検討する。
ホールド/シフトの精度はクリーン音声では84%から10dBの音楽ノイズでは52%に低下する。
マルチモーダルPTTMは、すべてのノイズタイプとSNRでオーディオのみのPTTMより優れている。
- 参考スコア(独自算出の注目度): 7.412918099791407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate predictive turn-taking models (PTTMs) are essential for naturalistic human-robot interaction. However, little is known about their performance in noise. This study therefore explores PTTM performance in types of noise likely to be encountered once deployed. Our analyses reveal PTTMs are highly sensitive to noise. Hold/shift accuracy drops from 84% in clean speech to just 52% in 10 dB music noise. Training with noisy data enables a multimodal PTTM, which includes visual features to better exploit visual cues, with 72% accuracy in 10 dB music noise. The multimodal PTTM outperforms the audio-only PTTM across all noise types and SNRs, highlighting its ability to exploit visual cues; however, this does not always generalise to new types of noise. Analysis also reveals that successful training relies on accurate transcription, limiting the use of ASR-derived transcriptions to clean conditions. We make code publicly available for future research.
- Abstract(参考訳): 正確な予測ターンテイクモデル(PTTM)は、自然主義的な人間とロボットの相互作用に不可欠である。
しかし、その性能についてはほとんど分かっていない。
そこで本研究では, PTTM の性能について検討した。
分析の結果,PTTMはノイズに非常に敏感であることが判明した。
ホールド/シフトの精度はクリーン音声では84%から10dBの音楽ノイズでは52%に低下する。
ノイズの多いデータでトレーニングすることで、視覚的特徴を含むマルチモーダルPTTMが可能になり、10dBの音楽ノイズにおいて72%の精度で視覚的手がかりを活用できる。
マルチモーダルPTTMは、全てのノイズタイプやSNRでオーディオのみのPTTMよりも優れており、視覚的手がかりを利用する能力を強調している。
分析によると、トレーニングの成功は正確な転写に依存しており、ASR由来の転写をクリーンな状態に制限している。
私たちは将来の研究のためにコードを公開しています。
関連論文リスト
- Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction [7.412918099791407]
予測的ターンテイクモデル(PTTM)は、自然主義的な人間とロボットの相互作用を促進するが、ほとんどは音声にのみ依存する。
本稿では,マルチモーダルPTTMであるMM-VAPを紹介する。
ビデオ会議のインタラクションにおいて、最先端のオーディオオンリー(ホールド/シフト予測精度が84%に対して79%)を上回っていることが判明した。
論文 参考訳(メタデータ) (2025-05-27T11:24:38Z) - Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition [21.477900473255264]
AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
論文 参考訳(メタデータ) (2023-06-18T13:53:34Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。
最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。
本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文 参考訳(メタデータ) (2021-01-19T02:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。