論文の概要: Data Center Audio/Video Intelligence on Device (DAVID) -- An Edge-AI
Platform for Smart-Toys
- arxiv url: http://arxiv.org/abs/2311.11030v1
- Date: Sat, 18 Nov 2023 10:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 12:40:44.342363
- Title: Data Center Audio/Video Intelligence on Device (DAVID) -- An Edge-AI
Platform for Smart-Toys
- Title(参考訳): Data Center Audio/Video Intelligence on Device (DAVID) -- スマートトイのためのエッジAIプラットフォーム
- Authors: Gabriel Cosache, Francisco Salgado, Cosmin Rotariu, George Sterpu,
Rishabh Jain and Peter Corcoran
- Abstract要約: DAVID Smart-Toyプラットフォームは、Edge AIプラットフォームの最初の設計のひとつだ。
ニューラルネットワークモデルによる高度な低消費電力データ処理を、関連する画像やオーディオセンサーと併用する。
デバイス内テキスト音声生成のオンボード機能も備えている。
- 参考スコア(独自算出の注目度): 2.740631793745274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An overview is given of the DAVID Smart-Toy platform, one of the first Edge
AI platform designs to incorporate advanced low-power data processing by neural
inference models co-located with the relevant image or audio sensors. There is
also on-board capability for in-device text-to-speech generation. Two
alternative embodiments are presented: a smart Teddy-bear, and a roving
dog-like robot. The platform offers a speech-driven user interface and can
observe and interpret user actions and facial expressions via its computer
vision sensor node. A particular benefit of this design is that no personally
identifiable information passes beyond the neural inference nodes thus
providing inbuilt compliance with data protection regulations.
- Abstract(参考訳): DAVID Smart-Toyプラットフォームの概要は、関連する画像やオーディオセンサーと組み合わせた神経推論モデルによる高度な低消費電力データ処理を組み込む、最初のエッジAIプラットフォームの1つである。
デバイス内テキスト対音声生成のオンボード機能もある。
スマートなテディベアと、回転する犬のようなロボットだ。
このプラットフォームは、音声駆動のユーザーインターフェイスを提供し、コンピュータビジョンセンサーノードを介してユーザーアクションと表情を観察し、解釈することができる。
この設計の特に利点は、個人識別可能な情報が神経推論ノードを超えることはなく、データ保護規則の組込みコンプライアンスを提供することである。
関連論文リスト
- AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Large Language Models Empowered Autonomous Edge AI for Connected
Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。
この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文 参考訳(メタデータ) (2023-07-06T05:16:55Z) - Object Recognition System on a Tactile Device for Visually Impaired [1.2891210250935146]
このデバイスは、視覚情報を聴覚フィードバックに変換し、ユーザが自分の環境を、感覚的なニーズに合った形で理解できるようにする。
装置が特定の位置にタッチされると、シーンに存在する物体の識別を視覚障害者に伝える音声信号を提供する。
論文 参考訳(メタデータ) (2023-07-05T11:37:17Z) - The System Model and the User Model: Exploring AI Dashboard Design [79.81291473899591]
高度なAIシステムは、他の複雑なデバイスと同じようにダッシュボードを持つべきだ、と私たちは主張する。
多くのシステムにおいて、最も重要な2つのモデルはユーザーとシステム自体のものであると推測する。
これら2つのモデルを識別し、解釈し、表示する方法を見つけることは、AIのためのインターフェース研究のコア部分であるべきです。
論文 参考訳(メタデータ) (2023-05-04T00:22:49Z) - edBB-Demo: Biometrics and Behavior Analysis for Online Educational
Platforms [17.38605546335716]
EDBBプラットフォームは、デジタルプラットフォームにおけるユーザ認識と行動理解に関連する課題を研究することを目的としている。
学生セッション中にセンサから取得した情報は、マルチモーダル学習フレームワークでモデル化される。
論文 参考訳(メタデータ) (2022-11-16T20:53:56Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework [5.1229352884025845]
Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことが示されている。
論文 参考訳(メタデータ) (2021-11-06T02:08:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - A Deep Learning based Wearable Healthcare IoT Device for AI-enabled
Hearing Assistance Automation [6.283190933140046]
本研究は、聴覚障害や聴覚障害に苦しむ人々を支援するAI対応IoT(Internet of Things)デバイスを提案する。
Googleのオンライン音声認識サービスを活用して、受信した会話をテキストに変換し、眼鏡に取り付けられたマイクロディスプレイに展開し、会話内容を聴覚障害者に表示するサーバアプリケーションを作成する。
論文 参考訳(メタデータ) (2020-05-16T19:42:16Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。