論文の概要: Augmented Conversation with Embedded Speech-Driven On-the-Fly Referencing in AR
- arxiv url: http://arxiv.org/abs/2405.18537v1
- Date: Tue, 28 May 2024 19:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:03:07.091821
- Title: Augmented Conversation with Embedded Speech-Driven On-the-Fly Referencing in AR
- Title(参考訳): ARにおける組込み音声駆動オンザフライ参照による拡張会話
- Authors: Shivesh Jadon, Mehrad Faridan, Edward Mah, Rajan Vaish, Wesley Willett, Ryo Suzuki,
- Abstract要約: 本稿では,拡張会話の概念を紹介する。
拡張現実(AR)における組込み音声駆動型オンザフライ会議による共同会話を支援することを目的とする。
- 参考スコア(独自算出の注目度): 16.50212867051533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the concept of augmented conversation, which aims to support co-located in-person conversations via embedded speech-driven on-the-fly referencing in augmented reality (AR). Today computing technologies like smartphones allow quick access to a variety of references during the conversation. However, these tools often create distractions, reducing eye contact and forcing users to focus their attention on phone screens and manually enter keywords to access relevant information. In contrast, AR-based on-the-fly referencing provides relevant visual references in real-time, based on keywords extracted automatically from the spoken conversation. By embedding these visual references in AR around the conversation partner, augmented conversation reduces distraction and friction, allowing users to maintain eye contact and supporting more natural social interactions. To demonstrate this concept, we developed \system, a Hololens-based interface that leverages real-time speech recognition, natural language processing and gaze-based interactions for on-the-fly embedded visual referencing. In this paper, we explore the design space of visual referencing for conversations, and describe our our implementation -- building on seven design guidelines identified through a user-centered design process. An initial user study confirms that our system decreases distraction and friction in conversations compared to smartphone searches, while providing highly useful and relevant information.
- Abstract(参考訳): 本稿では,拡張現実(AR)における組込み音声駆動のオンザフライ参照を通じて,共同会話を支援することを目的とした,拡張現実の概念を紹介する。
今日、スマートフォンのようなコンピューティング技術は、会話中に様々な参照に素早くアクセスできる。
しかし、これらのツールはしばしば注意をそらし、アイコンタクトを減らし、ユーザーは携帯電話の画面に注意を集中させ、関連する情報にアクセスするためにキーワードを手入力する。
対照的に、ARベースのオンザフライ参照は、音声会話から自動的に抽出されるキーワードに基づいて、リアルタイムで関連する視覚的参照を提供する。
これらの視覚的参照を会話パートナーの周囲に埋め込むことで、強化された会話は混乱と摩擦を減らし、ユーザーはアイコンタクトを維持し、より自然なソーシャルインタラクションをサポートすることができる。
この概念を実証するために,実時間音声認識,自然言語処理,視線に基づく対話を利用したホロレンスベースのインタフェースである \system を開発した。
本稿では,ユーザ中心の設計プロセスを通じて識別された7つの設計ガイドラインに基づいて,会話の視覚的参照の設計空間について検討し,我々の実装について述べる。
最初のユーザ調査では、スマートフォンの検索に比べて会話の邪魔や摩擦を減らし、非常に有用で関連性の高い情報を提供する。
関連論文リスト
- I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in
Social Robots [0.040792653193642496]
本稿では、従来のテキストベースのプロンプトをリアルタイム視覚入力で強化する対話マネージャの初期実装について述べる。
システムの迅速なエンジニアリングは、画像の要約と対話を組み込むことで、コンテキスト保存と計算効率のバランスを確保する。
論文 参考訳(メタデータ) (2023-11-15T13:47:00Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution [79.05412803762528]
ビジュアルダイアログタスクでは、視覚環境に基づいたマルチラウンドダイアログにおいて、AIエージェントが人間と対話する必要がある。
本稿では,Pronoun Coreference Resolution を用いたビジュアルダイアログ理解のための新しいフレームワーク VD-PCR を提案する。
提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。
論文 参考訳(メタデータ) (2022-05-29T15:29:50Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Know Deeper: Knowledge-Conversation Cyclic Utilization Mechanism for
Open-domain Dialogue Generation [11.72386584395626]
エンドツーエンドのインテリジェントなニューラルダイアログシステムは、一貫性のない繰り返し応答を生成する問題に悩まされる。
既存の対話モデルは、対人関係の会話情報を対人情報の流れとして捉えた個人知識に組み込むことが、その後の会話の質を高めるという事実を無視しながら、対人関係の個人知識を一方的にダイアログに組み込むことに注意を払っている。
会話の一貫性を向上し、2つの折り畳みから繰り返しを緩和することを目的とした,会話適応型多視点対応対応型応答生成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-16T08:59:06Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z) - BERT Embeddings Can Track Context in Conversational Search [5.3222282321717955]
我々は,自然な方法で情報検索を支援する対話型検索システムを開発した。
システムは、質問が提示される状況を理解し、会話の現在の状態を追跡し、以前の質問や回答に対する言及を検出する。
論文 参考訳(メタデータ) (2021-04-13T22:02:24Z) - Online Conversation Disentanglement with Pointer Networks [13.063606578730449]
本稿では,会話の絡み合わせのためのエンドツーエンドのオンラインフレームワークを提案する。
我々は、タイムスタンプ、話者、メッセージテキストを含む全発話を埋め込む新しい手法を設計する。
Ubuntu IRCデータセットを用いた実験により,提案手法はリンクと会話の予測タスクにおいて,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:43:07Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - IART: Intent-aware Response Ranking with Transformers in
Information-seeking Conversation Systems [80.0781718687327]
我々は、情報探索会話におけるユーザ意図パターンを分析し、意図認識型ニューラルレスポンスランキングモデル「IART」を提案する。
IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。
論文 参考訳(メタデータ) (2020-02-03T05:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。