論文の概要: A Noise-Robust Turn-Taking System for Real-World Dialogue Robots: A Field Experiment
- arxiv url: http://arxiv.org/abs/2503.06241v1
- Date: Sat, 08 Mar 2025 14:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:24.473590
- Title: A Noise-Robust Turn-Taking System for Real-World Dialogue Robots: A Field Experiment
- Title(参考訳): 実世界対話ロボットのためのノイズローバストターンタイキングシステム:フィールド実験
- Authors: Koji Inoue, Yuki Okafuji, Jun Baba, Yoshiki Ohira, Katsuya Hyodo, Tatsuya Kawahara,
- Abstract要約: 本稿では,対話ロボットにおけるリアルタイムのターンテイクを向上させるために,ノイズロスト音声活動予測モデルを提案する。
ショッピングモールでのフィールド実験を行い,VAPシステムと従来のクラウドベース音声認識システムとの比較を行った。
その結果,提案方式は応答遅延を著しく低減し,より自然な会話へと繋がった。
- 参考スコア(独自算出の注目度): 18.814181652728486
- License:
- Abstract: Turn-taking is a crucial aspect of human-robot interaction, directly influencing conversational fluidity and user engagement. While previous research has explored turn-taking models in controlled environments, their robustness in real-world settings remains underexplored. In this study, we propose a noise-robust voice activity projection (VAP) model, based on a Transformer architecture, to enhance real-time turn-taking in dialogue robots. To evaluate the effectiveness of the proposed system, we conducted a field experiment in a shopping mall, comparing the VAP system with a conventional cloud-based speech recognition system. Our analysis covered both subjective user evaluations and objective behavioral analysis. The results showed that the proposed system significantly reduced response latency, leading to a more natural conversation where both the robot and users responded faster. The subjective evaluations suggested that faster responses contribute to a better interaction experience.
- Abstract(参考訳): ターンテイキングは人間とロボットのインタラクションにおいて重要な側面であり、会話の流動性とユーザエンゲージメントに直接影響を与える。
これまでの研究では、制御された環境でのターンテイクモデルについて検討されてきたが、実際の環境での堅牢性はいまだに解明されていない。
本研究では,対話ロボットにおけるリアルタイムのターンテイクを向上させるために,トランスフォーマーアーキテクチャに基づくノイズロスト音声活動予測(VAP)モデルを提案する。
提案システムの有効性を評価するため,ショッピングモールでのフィールド実験を行い,VAPシステムと従来のクラウドベース音声認識システムとの比較を行った。
本分析は主観的ユーザ評価と客観的行動分析の両方を対象とした。
その結果,提案システムは応答遅延を著しく低減し,ロボットとユーザの両方の応答がより自然な会話に繋がった。
主観的な評価は、より速い反応がより良い相互作用体験に寄与することを示唆した。
関連論文リスト
- Applying General Turn-taking Models to Conversational Human-Robot Interaction [3.8673630752805446]
本稿では、一般的なターンテイクモデル、特にTurnGPTとVAP(Voice Activity Projection)を用いて、HRIにおける会話力学を改善する。
本稿では,ロボットがいつ応答を準備し,交替し,潜在的割り込みを扱うべきかを予測するために,これらのモデルをタンデムで使用する手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T16:49:22Z) - Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis [3.210706100833053]
我々は、従来のAFEモデルをOpen AIのWhisperに置き換える、完全に統合されたシステムを提案し、実装する。
我々はWhisperが処理を高速化するだけでなく、レンダリング品質の特定の側面を改善し、より現実的で応答性の高い対話型対話を実現することを示した。
論文 参考訳(メタデータ) (2024-11-20T11:18:05Z) - Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Analysis and Detection of Differences in Spoken User Behaviors between Autonomous and Wizard-of-Oz Systems [21.938414385824903]
注意的聴取と面接の対話シナリオにおけるユーザ音声行動の分析を行った。
その結果, 発話長, 発話速度, フィラー, バックチャネル, 拡散, 笑いなどの指標に有意な差が認められた。
我々は,オペレータと自律システムの状態を区別する予測モデルを開発した。
論文 参考訳(メタデータ) (2024-10-04T05:07:55Z) - The Effects of Interactive AI Design on User Behavior: An Eye-tracking
Study of Fact-checking COVID-19 Claims [12.00747200817161]
我々は,AIを用いたファクトチェックシステムの相互作用がユーザインタラクションに与える影響について,実験室による眼球追跡調査を行った。
その結果、AIシステムの予測パラメータを対話的に操作することの存在は、ユーザの生活時間や、AOIの眼球修正に影響を及ぼすが、精神的な作業負荷には影響しないことがわかった。
論文 参考訳(メタデータ) (2022-02-17T21:08:57Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。