論文の概要: The Design of Informative Take-Over Requests for Semi-Autonomous Cyber-Physical Systems: Combining Spoken Language and Visual Icons in a Drone-Controller Setting
- arxiv url: http://arxiv.org/abs/2409.08253v1
- Date: Thu, 12 Sep 2024 17:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:24:38.804169
- Title: The Design of Informative Take-Over Requests for Semi-Autonomous Cyber-Physical Systems: Combining Spoken Language and Visual Icons in a Drone-Controller Setting
- Title(参考訳): 半自律型サイバー物理システムのためのインフォーマティブ・テイクオーバー要求の設計:ドローン制御系における音声言語と視覚アイコンの組み合わせ
- Authors: Ashwini Gundappa, Emilia Ellsiepen, Lukas Schmitz, Frederik Wiehr, Vera Demberg,
- Abstract要約: 本稿では,抽象的な事前アラートと情報伝達型TORを組み合わせたテイクオーバー要求の設計を提案する。
我々は、テストベッドとして半自律ドローン制御シナリオの文脈で研究を行う。
- 参考スコア(独自算出の注目度): 10.548654133008705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The question of how cyber-physical systems should interact with human partners that can take over control or exert oversight is becoming more pressing, as these systems are deployed for an ever larger range of tasks. Drawing on the literatures on handing over control during semi-autonomous driving and human-robot interaction, we propose a design of a take-over request that combines an abstract pre-alert with an informative TOR: Relevant sensor information is highlighted on the controller's display, while a spoken message verbalizes the reason for the TOR. We conduct our study in the context of a semi-autonomous drone control scenario as our testbed. The goal of our online study is to assess in more detail what form a language-based TOR should take. Specifically, we compare a full sentence condition to shorter fragments, and test whether the visual highlighting should be done synchronously or asynchronously with the speech. Participants showed a higher accuracy in choosing the correct solution with our bi-modal TOR and felt that they were better able to recognize the critical situation. Using only fragments in the spoken message rather than full sentences did not lead to improved accuracy or faster reactions. Also, synchronizing the visual highlighting with the spoken message did not result in better accuracy and response times were even increased in this condition.
- Abstract(参考訳): サイバー物理システムは、制御を乗っ取り、監視を行うことのできる人間のパートナーとどのように相互作用すべきかという疑問は、より広い範囲のタスクに配備されるため、ますます迫りつつある。
本稿では,半自律運転と人間ロボットのインタラクションにおける制御の引き渡しに関する文献に基づいて,抽象的プレアラートと情報的TORを組み合わせたテイクオーバー要求の設計を提案する: 関連するセンサ情報をコントローラのディスプレイにハイライトし,音声メッセージがTORの理由を口頭で述べる。
我々は、テストベッドとして半自律ドローン制御シナリオの文脈で研究を行う。
私たちのオンライン研究の目的は、言語ベースのTORがどのような形をとるべきかをより詳細に評価することにあります。
具体的には、全文条件を短い断片と比較し、視覚的ハイライトを音声と同期的に、あるいは非同期的に行うべきかをテストする。
被験者は,両モードのTORで正しい解を選択する際に高い精度を示し,危機状況の認識がより良好であると感じた。
完全文ではなく音声メッセージの断片のみを使用することで、精度の向上や反応の高速化には至らなかった。
また、音声メッセージと視覚強調表示を同期させることで精度が向上せず、応答時間も増大した。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - TwIPS: A Large Language Model Powered Texting Application to Simplify Conversational Nuances for Autistic Users [0.0]
自閉症の個人はしばしば、感情的な声調や非文学的なニュアンスを伝え、解釈するのに困難を経験する。
大規模言語モデル(LLM)を利用したプロトタイプテキストアプリケーションTwIPSについて述べる。
我々は、AIベースのシミュレーションと会話スクリプトを利用して、TwIPSを8人の自閉症参加者で評価する。
論文 参考訳(メタデータ) (2024-07-25T04:15:54Z) - Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models [1.4199474167684119]
マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを導入する。
このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-04-11T23:09:18Z) - Evaluation of a semi-autonomous attentive listening system with takeover
prompting [22.854064386776543]
音声対話システムにおいて,コミュニケーションのブレークダウンとエンゲージメントの喪失の処理は重要な側面である。
本稿では,遠隔操作者がリアルタイムに自律的な聴取システムを制御できる半自律システムを提案する。
人間の介入を簡単かつ一貫したものにするために、関心やエンゲージメントの自動検出を導入する。
論文 参考訳(メタデータ) (2024-02-21T03:43:57Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Interpretable agent communication from scratch(with a generic visual
processor emerging on the side) [29.722833768572805]
我々は、2つのディープネットをスクラッチからトレーニングし、教師なし緊急通信を通じて現実的な参照識別を行う。
ほぼ解釈可能な創発的プロトコルにより、トレーニング時に見なかったオブジェクトタイプであっても、ネットがうまく通信できることが示される。
以上の結果から,従来考えられていたよりも現実的な状況下での(解釈可能な)深層ネット通信の実現可能性に関する具体的な証拠が得られた。
論文 参考訳(メタデータ) (2021-06-08T11:32:11Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - IART: Intent-aware Response Ranking with Transformers in
Information-seeking Conversation Systems [80.0781718687327]
我々は、情報探索会話におけるユーザ意図パターンを分析し、意図認識型ニューラルレスポンスランキングモデル「IART」を提案する。
IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。
論文 参考訳(メタデータ) (2020-02-03T05:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。