論文の概要: Compression of end-to-end non-autoregressive image-to-speech system for
low-resourced devices
- arxiv url: http://arxiv.org/abs/2312.00174v1
- Date: Thu, 30 Nov 2023 20:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:40:18.895458
- Title: Compression of end-to-end non-autoregressive image-to-speech system for
low-resourced devices
- Title(参考訳): 低リソースデバイスにおけるエンドツーエンド非自己回帰画像合成システムの圧縮
- Authors: Gokul Srinivasagan, Michael Deisher, Munir Georges
- Abstract要約: 低リソースデバイス上での表示内容の小さなセグメントから音声を生成するための,効率的なエンドツーエンドニューラルアーキテクチャを開発した。
人的および自動評価の結果から,本手法は性能の低下を最小限に抑え,推論時間を22%高速化できることがわかった。
- 参考スコア(独自算出の注目度): 1.7617987342944703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People with visual impairments have difficulty accessing touchscreen-enabled
personal computing devices like mobile phones and laptops. The image-to-speech
(ITS) systems can assist them in mitigating this problem, but their huge model
size makes it extremely hard to be deployed on low-resourced embedded devices.
In this paper, we aim to overcome this challenge by developing an efficient
endto-end neural architecture for generating audio from tiny segments of
display content on low-resource devices. We introduced a vision
transformers-based image encoder and utilized knowledge distillation to
compress the model from 6.1 million to 2.46 million parameters. Human and
automatic evaluation results show that our approach leads to a very minimal
drop in performance and can speed up the inference time by 22%.
- Abstract(参考訳): 視覚障害のある人は、携帯電話やラップトップのようなタッチスクリーン対応のパーソナルコンピューティングデバイスにアクセスするのが難しい。
画像合成(ITS)システムは、この問題を軽減するのに役立ちますが、その巨大なモデルサイズによって、低リソースの組み込みデバイスへのデプロイが非常に困難になります。
本稿では,低リソースデバイス上で表示コンテンツの小さなセグメントから音声を生成するための,効率的なエンドツーエンドニューラルネットワークアーキテクチャを開発することで,この課題を克服することを目的とする。
視覚トランスフォーマーを用いた画像エンコーダを導入し,610万パラメータから246万パラメータまでのモデル圧縮に知識蒸留を用いた。
人的および自動評価の結果から,本手法は性能の低下を最小限に抑え,推論時間を22%高速化できることがわかった。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Agile gesture recognition for low-power applications: customisation for generalisation [41.728933551492275]
自動手ジェスチャー認識は、長い間AIコミュニティの焦点だった。
低消費電力センサデバイスで動作するジェスチャー認識技術への需要が高まっている。
本研究では,適応的およびアジャイル的誤り訂正を用いたパターン認識システムのための新しい手法を提示する。
論文 参考訳(メタデータ) (2024-03-12T19:34:18Z) - Accurate Gigapixel Crowd Counting by Iterative Zooming and Refinement [90.76576712433595]
GigaZoomは画像の最も密度の高い領域を反復的にズームし、より詳細な粗い密度マップを洗練します。
ギガZoomは,ギガピクセルの群衆計数のための最先端技術を取得し,次のベストメソッドの精度を42%向上させることを示す。
論文 参考訳(メタデータ) (2023-05-16T08:25:27Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - An End-to-End Neural Network for Image-to-Audio Transformation [7.2456414464953065]
本稿では、低リソースのパーソナルコンピューティングデバイス上での表示コンテンツの小さな部分のオーディオレンダリングのためのエンド・ツー・エンド(E2E)ニューラルアーキテクチャについて述べる。
ハードウェアレベルでの視覚障害者や視覚障害者のアクセシビリティの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T16:56:09Z) - MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。
提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。
モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文 参考訳(メタデータ) (2022-11-08T17:40:50Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Microdosing: Knowledge Distillation for GAN based Compression [18.140328230701233]
そこで本研究では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
これにより、モデルサイズを20倍に削減し、デコード時間の50%削減を実現できます。
論文 参考訳(メタデータ) (2022-01-07T14:27:16Z) - Fast Camera Image Denoising on Mobile GPUs with Deep Learning, Mobile AI
2021 Challenge: Report [64.09439666916465]
最初のMobile AIチャレンジでは、エンドツーエンドのディープラーニングベースの画像記述ソリューションの開発を目標としています。
提案したソリューションは任意のモバイルGPUと完全に互換性があり、480pの解像度画像を40-80msで処理できる。
論文 参考訳(メタデータ) (2021-05-17T13:27:56Z) - Streaming Attention-Based Models with Augmented Memory for End-to-End
Speech Recognition [26.530909772863417]
コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築した。
提案システムは,ストリーミング機能を備えたエンドツーエンドモデルと,拡張メモリを用いたストリーミングアテンションベースモデルからのフットプリントを大幅に削減する。
LibriSpeechデータセットでは,テストクリーンで2.7%,他で5.8%の単語誤り率を実現している。
論文 参考訳(メタデータ) (2020-11-03T00:43:58Z) - Lightweight Convolutional Representations for On-Device Natural Language
Processing [11.565654851982568]
高速で正確で軽量な畳み込み表現を提案し、任意のニューラルモデルに置き換えることができる。
Samsung Galaxy S9のリソース中心のメトリクスを考えると、リカレント表現よりも利得を示す。
論文 参考訳(メタデータ) (2020-02-04T21:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。