論文の概要: PicTalky: Augmentative and Alternative Communication Software for
Language Developmental Disabilities
- arxiv url: http://arxiv.org/abs/2109.12941v1
- Date: Mon, 27 Sep 2021 10:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 00:44:34.891400
- Title: PicTalky: Augmentative and Alternative Communication Software for
Language Developmental Disabilities
- Title(参考訳): pictalky: 言語発達障害のための拡張的および代替的なコミュニケーションソフトウェア
- Authors: Chanjun Park, Yoonna Jang, Seolhwa Lee, Jaehyung Seo, Kisu Yang,
Heuiseok Lim
- Abstract要約: AAC(Augmentative and Alternative Communication)は、言語障害のある人々のための実践的なコミュニケーション手段である。
言語発達障害児のコミュニケーション能力と言語理解能力の向上を支援するAIベースのAACシステムであるPicTalkyを提案する。
- 参考スコア(独自算出の注目度): 2.2944351895226953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmentative and alternative communication (AAC) is a practical means of
communication for people with language disabilities. In this study, we propose
PicTalky, which is an AI-based AAC system that helps children with language
developmental disabilities to improve their communication skills and language
comprehension abilities. PicTalky can process both text and pictograms more
accurately by connecting a series of neural-based NLP modules. Moreover, we
perform quantitative and qualitative analyses on the essential features of
PicTalky. It is expected that those suffering from language problems will be
able to express their intentions or desires more easily and improve their
quality of life by using this service. We have made the models freely available
alongside a demonstration of the Web interface. Furthermore, we implemented
robotics AAC for the first time by applying PicTalky to the NAO robot.
- Abstract(参考訳): AAC(Augmentative and Alternative Communication)は、言語障害のある人々のための実践的なコミュニケーション手段である。
本研究では,言語発達障害児のコミュニケーション能力と言語理解能力の向上を支援するAIベースのAACシステムであるPicTalkyを提案する。
PicTalkyは、一連のニューラルネットワークNLPモジュールを接続することで、テキストとピクトグラムの両方をより正確に処理することができる。
さらに,PicTalkyの本質的特徴を定量的に定性的に分析する。
言語障害に苦しむ人たちは、このサービスを使うことで、自分の意図や願望をより簡単に表現し、生活の質を向上させることが期待されている。
我々は、Webインターフェースのデモとともに、モデルを自由に利用可能にしました。
さらに, NAOロボットにPicTalkyを適用することにより, ロボットAACを初めて実装した。
関連論文リスト
- Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。
実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T14:15:55Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - TwIPS: A Large Language Model Powered Texting Application to Simplify Conversational Nuances for Autistic Users [0.0]
自閉症の個人はしばしば、感情的な声調や非文学的なニュアンスを伝え、解釈するのに困難を経験する。
大規模言語モデル(LLM)を利用したプロトタイプテキストアプリケーションTwIPSについて述べる。
我々は、AIベースのシミュレーションと会話スクリプトを利用して、TwIPSを8人の自閉症参加者で評価する。
論文 参考訳(メタデータ) (2024-07-25T04:15:54Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - FreeTalky: Don't Be Afraid! Conversations Made Easier by a Humanoid
Robot using Persona-based Dialogue [1.7651013017598882]
本稿では,外国語に関する不安を経験する人々を対象とした,ディープラーニングに基づく外国語学習プラットフォームFreeTalkyを提案する。
NAOに埋め込まれたペルソナベースの対話システムは、ユーザにとって興味深く一貫したマルチターン対話を提供する。
論文 参考訳(メタデータ) (2021-12-08T05:48:11Z) - Introducing the Talk Markup Language (TalkML):Adding a little social
intelligence to industrial speech interfaces [0.0]
自然言語の理解は、AI研究の最も残念な失敗の1つだ。
本稿では、他の分野からアイデアを取り入れて実装した方法について述べる。
論文 参考訳(メタデータ) (2021-05-24T14:25:35Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。