Fugu-MT 論文翻訳(概要): PicTalky: Augmentative and Alternative Communication Software for Language Developmental Disabilities

論文の概要: PicTalky: Augmentative and Alternative Communication Software for Language Developmental Disabilities

arxiv url: http://arxiv.org/abs/2109.12941v1
Date: Mon, 27 Sep 2021 10:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-29 00:44:34.891400
Title: PicTalky: Augmentative and Alternative Communication Software for Language Developmental Disabilities
Title（参考訳）: pictalky: 言語発達障害のための拡張的および代替的なコミュニケーションソフトウェア
Authors: Chanjun Park, Yoonna Jang, Seolhwa Lee, Jaehyung Seo, Kisu Yang, Heuiseok Lim
Abstract要約: AAC(Augmentative and Alternative Communication)は、言語障害のある人々のための実践的なコミュニケーション手段である。言語発達障害児のコミュニケーション能力と言語理解能力の向上を支援するAIベースのAACシステムであるPicTalkyを提案する。
参考スコア（独自算出の注目度）: 2.2944351895226953
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Augmentative and alternative communication (AAC) is a practical means of communication for people with language disabilities. In this study, we propose PicTalky, which is an AI-based AAC system that helps children with language developmental disabilities to improve their communication skills and language comprehension abilities. PicTalky can process both text and pictograms more accurately by connecting a series of neural-based NLP modules. Moreover, we perform quantitative and qualitative analyses on the essential features of PicTalky. It is expected that those suffering from language problems will be able to express their intentions or desires more easily and improve their quality of life by using this service. We have made the models freely available alongside a demonstration of the Web interface. Furthermore, we implemented robotics AAC for the first time by applying PicTalky to the NAO robot.
Abstract（参考訳）: AAC(Augmentative and Alternative Communication)は、言語障害のある人々のための実践的なコミュニケーション手段である。本研究では,言語発達障害児のコミュニケーション能力と言語理解能力の向上を支援するAIベースのAACシステムであるPicTalkyを提案する。 PicTalkyは、一連のニューラルネットワークNLPモジュールを接続することで、テキストとピクトグラムの両方をより正確に処理することができる。さらに,PicTalkyの本質的特徴を定量的に定性的に分析する。言語障害に苦しむ人たちは、このサービスを使うことで、自分の意図や願望をより簡単に表現し、生活の質を向上させることが期待されている。我々は、Webインターフェースのデモとともに、モデルを自由に利用可能にしました。さらに, NAOロボットにPicTalkyを適用することにより, ロボットAACを初めて実装した。

関連論文リスト

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication [9.812902134556971]
Speak Easeは、ユーザの表現性をサポートするための拡張的で代替的なコミュニケーションシステムである。システムは、テキスト、音声、文脈の手がかりを含むマルチモーダル入力を、大きな言語モデルと統合する。
論文参考訳（メタデータ） (2025-03-21T18:50:05Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文参考訳（メタデータ） (2025-02-18T14:15:55Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。 4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文参考訳（メタデータ） (2024-07-25T16:39:21Z)
TwIPS: A Large Language Model Powered Texting Application to Simplify Conversational Nuances for Autistic Users [0.0]
自閉症の個人はしばしば、感情的な声調や非文学的なニュアンスを伝え、解釈するのに困難を経験する。大規模言語モデル(LLM)を利用したプロトタイプテキストアプリケーションTwIPSについて述べる。我々は、AIベースのシミュレーションと会話スクリプトを利用して、TwIPSを8人の自閉症参加者で評価する。
論文参考訳（メタデータ） (2024-07-25T04:15:54Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-17T18:46:25Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文参考訳（メタデータ） (2023-06-06T08:50:13Z)
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-27T11:24:40Z)
FreeTalky: Don't Be Afraid! Conversations Made Easier by a Humanoid Robot using Persona-based Dialogue [1.7651013017598882]
本稿では,外国語に関する不安を経験する人々を対象とした,ディープラーニングに基づく外国語学習プラットフォームFreeTalkyを提案する。 NAOに埋め込まれたペルソナベースの対話システムは、ユーザにとって興味深く一貫したマルチターン対話を提供する。
論文参考訳（メタデータ） (2021-12-08T05:48:11Z)
Introducing the Talk Markup Language (TalkML):Adding a little social intelligence to industrial speech interfaces [0.0]
自然言語の理解は、AI研究の最も残念な失敗の1つだ。本稿では、他の分野からアイデアを取り入れて実装した方法について述べる。
論文参考訳（メタデータ） (2021-05-24T14:25:35Z)
Structural and Functional Decomposition for Personality Image Captioning in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文参考訳（メタデータ） (2020-11-17T10:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。