論文の概要: The MIT Voice Name System
- arxiv url: http://arxiv.org/abs/2204.09657v1
- Date: Mon, 28 Mar 2022 19:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 23:47:25.555772
- Title: The MIT Voice Name System
- Title(参考訳): MITボイスネームシステム
- Authors: Brian Subirana and Harry Levinson and Ferran Hueto and Prithvi
Rajasekaran and Alexander Gaidis and Esteve Tarrag\'o and Peter
Oliveira-Soens
- Abstract要約: 我々は,音声対話を電話番号などの他のシステムと同様のユニバーサルリーチに標準化することを目指している。
音声をIoTオブジェクトと通信するための出発点として重視しています。
プライバシーとセキュリティは、音声からテキストへの誤りと音声サンプルに含まれる個人情報の量によって考慮される重要な要素である。
- 参考スコア(独自算出の注目度): 53.473846742702854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This RFC white Paper summarizes our progress on the MIT Voice Name System
(VNS) and Huey. The VNS, similar in name and function to the DNS, is a system
to reserve and use "wake words" to activate Artificial Intelligence (AI)
devices. Just like you can say "Hey Siri" to activate Apple's personal
assistant, we propose using the VNS in smart speakers and other devices to
route wake requests based on commands such as "turn off", "open grocery
shopping list" or "271, start flash card review of my computer vision class".
We also introduce Huey, an unambiguous Natural Language to interact with AI
devices. We aim to standardize voice interactions to a universal reach similar
to that of other systems such as phone numbering, with an agreed world-wide
approach to assign and use numbers, or the Internet's DNS, with a standard
naming system, that has helped flourish popular services including the
World-Wide-Web, FTP, and email. Just like these standards are "neutral", we
also aim to endow the VNS with "wake neutrality" so that each participant can
develop its own digital voice. We focus on voice as a starting point to talk to
any IoT object and explain briefly how the VNS may be expanded to other AI
technologies enabling person-to-machine conversations (really
machine-to-machine), including computer vision or neural interfaces. We also
describe briefly considerations for a broader set of standards, MIT Open AI
(MOA), including a reference architecture to serve as a starting point for the
development of a general conversational commerce infrastructure that has
standard "Wake Words", NLP commands such as "Shopping Lists" or "Flash Card
Reviews", and personalities such as Pi or 271. Privacy and security are key
elements considered because of speech-to-text errors and the amount of personal
information contained in a voice sample.
- Abstract(参考訳): このRFCホワイトペーパーは、MIT Voice Name System(VNS)とHueyの進歩をまとめたものです。
VNSはDNSと似た名前と機能を持ち、人工知能(AI)デバイスを起動するために「覚醒語」を予約して使用するシステムである。
appleのパーソナルアシスタントをアクティベートするために"hey siri"と言うように、スマートスピーカーや他のデバイスでvnsを使って"on off"や"open grocery shopping list"、"271, start flash card review of my computer vision class"といったコマンドに基づいてウェイクリクエストをルーティングすることを提案します。
AIデバイスと対話するための曖昧な自然言語であるHueyも紹介します。
我々は、電話番号などの他のシステムと同様のユニバーサルリーチに音声対話を標準化することを目的としており、ワールドワイドウェブ、FTP、Eメールなどのポピュラーなサービスの普及に寄与した、番号の割り当てと使用に関する合意された世界的アプローチ、または標準命名システムによるインターネットのDNSを定めている。
これらの標準が「中立的」であるように、我々はVNSに「覚醒の中立性」を授け、各参加者が独自のデジタル音声を発達させることも目指している。
音声は、IoTオブジェクトと対話するための出発点であり、VNSが、コンピュータビジョンやニューラルインターフェースを含む、人から機械までの会話を可能にする他のAI技術にどのように拡張されるかを簡単に説明する。
MIT Open AI(MOA)は、標準的な"Wake Words"や"Shopping Lists"や"Flash Card Reviews"といったNLPコマンド、Piや271といったパーソナリティを備えた一般的な会話型コマースインフラストラクチャの開発の出発点となるリファレンスアーキテクチャを含む。
プライバシーとセキュリティは、音声からテキストへの誤りと音声サンプルに含まれる個人情報の量によって考慮される重要な要素である。
関連論文リスト
- Data Center Audio/Video Intelligence on Device (DAVID) -- An Edge-AI
Platform for Smart-Toys [2.740631793745274]
DAVID Smart-Toyプラットフォームは、Edge AIプラットフォームの最初の設計のひとつだ。
ニューラルネットワークモデルによる高度な低消費電力データ処理を、関連する画像やオーディオセンサーと併用する。
デバイス内テキスト音声生成のオンボード機能も備えている。
論文 参考訳(メタデータ) (2023-11-18T10:38:35Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - An Artificial Intelligence Browser Architecture (AIBA) For Our Kind and
Others: A Voice Name System Speech implementation with two warrants, Wake
Neutrality and Value Preservation of Privately Identifiable Information [0.0]
会話型コマースは、環境と対話するタイミングを決定する、常時オンの人工知能システムに基づく5月の最初のアプリケーションである。
現在の支配的なシステムは、ウェイク中立性のないクローズドガーデンソリューションであり、IRBやCohues型の制約のため、それらが持つPIIデータを完全に活用することはできない。
本稿では,これら2つの制限に対処するための音声ブラウザ・サーバアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:49:41Z) - Neural Approaches to Conversational Information Retrieval [94.77863916314979]
会話情報検索(CIR)システムは、会話インタフェースを備えた情報検索(IR)システムである。
近年のディープラーニングの進歩により、自然言語処理(NLP)と会話型AIが大幅に改善されている。
この本は、ここ数年で開発された神経アプローチに焦点を当てた、CIRの最近の進歩を調査します。
論文 参考訳(メタデータ) (2022-01-13T19:04:59Z) - Stop Bugging Me! Evading Modern-Day Wiretapping Using Adversarial
Perturbations [47.32228513808444]
ボイスオーバーIP(VoIP)会話のための大量監視システムは、プライバシーに大きなリスクをもたらす。
本稿では、VoIP会話のプライバシー保護のための逆学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T06:56:35Z) - End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands [0.48951183832371004]
本稿では,音声2D特徴を直接義手用軌跡にマッピングするエンドツーエンド畳み込みニューラルネットワーク(CNN)を提案する。
ネットワークはPythonで書かれており、対応するバックエンドを持つKerasライブラリがある。
我々はNVIDIA Jetson TX2開発キット用にCNNを最適化した。
論文 参考訳(メタデータ) (2020-09-22T02:31:00Z) - Implementation of Google Assistant & Amazon Alexa on Raspberry Pi [0.0]
本稿では,Raspberry Pi上での音声対応Google AssistantとAmazon Alexaの実装について検討する。
音声対応システムは基本的に、音声を入力として処理し、その入力の意味を理解し、適切な音声出力を生成するシステムを意味する。
論文 参考訳(メタデータ) (2020-06-15T08:46:48Z) - A Deep Learning based Wearable Healthcare IoT Device for AI-enabled
Hearing Assistance Automation [6.283190933140046]
本研究は、聴覚障害や聴覚障害に苦しむ人々を支援するAI対応IoT(Internet of Things)デバイスを提案する。
Googleのオンライン音声認識サービスを活用して、受信した会話をテキストに変換し、眼鏡に取り付けられたマイクロディスプレイに展開し、会話内容を聴覚障害者に表示するサーバアプリケーションを作成する。
論文 参考訳(メタデータ) (2020-05-16T19:42:16Z) - VGAI: End-to-End Learning of Vision-Based Decentralized Controllers for
Robot Swarms [237.25930757584047]
ビジュアル入力のみに基づいて分散制御系を学習することを提案する。
初めて、コミュニケーションと視覚知覚という2つの重要な要素の学習を統合する。
提案する学習フレームワークは,各ロボットが視覚入力からメッセージを取り出すための畳み込みニューラルネットワーク(CNN)と,これらのメッセージの送信,受信,処理を行うためのSwarm全体のグラフニューラルネットワーク(GNN)を組み合わせる。
論文 参考訳(メタデータ) (2020-02-06T15:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。