論文の概要: Applying General Turn-taking Models to Conversational Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2501.08946v1
- Date: Wed, 15 Jan 2025 16:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:08.366946
- Title: Applying General Turn-taking Models to Conversational Human-Robot Interaction
- Title(参考訳): 一般ターンテイクモデルを用いた対話型人間-ロボットインタラクション
- Authors: Gabriel Skantze, Bahar Irfan,
- Abstract要約: 本稿では、一般的なターンテイクモデル、特にTurnGPTとVAP(Voice Activity Projection)を用いて、HRIにおける会話力学を改善する。
本稿では,ロボットがいつ応答を準備し,交替し,潜在的割り込みを扱うべきかを予測するために,これらのモデルをタンデムで使用する手法を提案する。
- 参考スコア(独自算出の注目度): 3.8673630752805446
- License:
- Abstract: Turn-taking is a fundamental aspect of conversation, but current Human-Robot Interaction (HRI) systems often rely on simplistic, silence-based models, leading to unnatural pauses and interruptions. This paper investigates, for the first time, the application of general turn-taking models, specifically TurnGPT and Voice Activity Projection (VAP), to improve conversational dynamics in HRI. These models are trained on human-human dialogue data using self-supervised learning objectives, without requiring domain-specific fine-tuning. We propose methods for using these models in tandem to predict when a robot should begin preparing responses, take turns, and handle potential interruptions. We evaluated the proposed system in a within-subject study against a traditional baseline system, using the Furhat robot with 39 adults in a conversational setting, in combination with a large language model for autonomous response generation. The results show that participants significantly prefer the proposed system, and it significantly reduces response delays and interruptions.
- Abstract(参考訳): ターンテイキングは会話の基本的な側面であるが、現在のヒューマンロボットインタラクション(HRI)システムは、しばしば単純で沈黙に基づくモデルに依存し、不自然な一時停止と中断につながる。
本稿では,特にTurnGPTとVAP(Voice Activity Projection)の一般ターンテイクモデルによるHRIの会話力学の改善について検討する。
これらのモデルは、ドメイン固有の微調整を必要とせず、自己教師付き学習目標を用いて人間と人間の対話データに基づいて訓練される。
本稿では,ロボットがいつ応答を準備し,交替し,潜在的割り込みを扱うべきかを予測するために,これらのモデルをタンデムで使用する手法を提案する。
本研究では,39人の成人をもつFurhatロボットと,自律応答生成のための大規模言語モデルを組み合わせることで,従来のベースラインシステムに対する対象内システムの評価を行った。
その結果、参加者は提案方式をかなり好んでおり、応答遅延や中断を著しく低減できることがわかった。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - Continuous ErrP detections during multimodal human-robot interaction [2.5199066832791535]
我々は,シミュレーションロボットが音声やジェスチャーを通じて人間とコミュニケーションする,マルチモーダルなヒューマンロボットインタラクション(HRI)シナリオを実装した。
人間のパートナーは、ロボットが選択した動作(ポインティングジェスチャー)とロボットの口頭発表(意図)が一致しているかを評価する。
脳波で明らかな、人間によるロボット行動の本質的な評価は、リアルタイムで記録され、オンラインで連続的にセグメンテーションされ、非同期に分類された。
論文 参考訳(メタデータ) (2022-07-25T15:39:32Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Enhancing Self-Disclosure In Neural Dialog Models By Candidate
Re-ranking [0.7059472280274008]
社会侵入理論 (SPT) は、主に自己開示を通じて関係が進むにつれて、二人のコミュニケーションが浅いレベルから深いレベルに移動することを示唆している。
本稿では, 自己開示促進アーキテクチャ (SDEA) を導入し, 自己開示トピックモデル (SDTM) を用いて, モデルからのシングルターン応答における自己開示を高めるために, 応答候補を再ランク付けする。
論文 参考訳(メタデータ) (2021-09-10T20:06:27Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Neural Generation of Dialogue Response Timings [13.611050992168506]
音声応答オフセットの分布をシミュレートするニューラルモデルを提案する。
モデルは、インクリメンタルな音声対話システムのパイプラインに統合されるように設計されている。
人間の聴取者は、対話の文脈に基づいて、特定の応答タイミングをより自然なものとみなす。
論文 参考訳(メタデータ) (2020-05-18T23:00:57Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。