論文の概要: ImageTalk: Designing a Multimodal AAC Text Generation System Driven by Image Recognition and Natural Language Generation
- arxiv url: http://arxiv.org/abs/2512.09610v1
- Date: Wed, 10 Dec 2025 12:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.524484
- Title: ImageTalk: Designing a Multimodal AAC Text Generation System Driven by Image Recognition and Natural Language Generation
- Title(参考訳): ImageTalk:画像認識と自然言語生成によるマルチモーダルAACテキスト生成システムの設計
- Authors: Boyin Yang, Puming Jiang, Per Ola Kristensson,
- Abstract要約: 本稿では,従来のシンボルベースのAACシステムが限定語彙を提供する主な課題に取り組む。
そこで我々は,画像Talkと呼ばれる新しいマルチモーダルテキスト生成システムを開発した。
このシステムは95.6%のキーストローク保存と、一貫したパフォーマンスと高いユーザ満足度を示す。
- 参考スコア(独自算出の注目度): 24.974810721799418
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: People living with Motor Neuron Disease (plwMND) frequently encounter speech and motor impairments that necessitate a reliance on augmentative and alternative communication (AAC) systems. This paper tackles the main challenge that traditional symbol-based AAC systems offer a limited vocabulary, while text entry solutions tend to exhibit low communication rates. To help plwMND articulate their needs about the system efficiently and effectively, we iteratively design and develop a novel multimodal text generation system called ImageTalk through a tailored proxy-user-based and an end-user-based design phase. The system demonstrates pronounced keystroke savings of 95.6%, coupled with consistent performance and high user satisfaction. We distill three design guidelines for AI-assisted text generation systems design and outline four user requirement levels tailored for AAC purposes, guiding future research in this field.
- Abstract(参考訳): 運動ニューロン疾患(plwMND)を患っている人は、しばしば音声や運動障害に遭遇し、AAC(Augmentative and alternative communication)システムに依存する。
本稿では,従来のシンボルベースのAACシステムでは語彙が限られているのに対して,テキスト入力ソリューションでは通信速度が低いという課題に対処する。
plwMNDがシステムに対するニーズを効果的かつ効果的に表現するのを助けるため、我々は、カスタマイズされたプロキシベースおよびエンドユーザーベースの設計フェーズを通じて、ImageTalkと呼ばれる新しいマルチモーダルテキスト生成システムを反復的に設計し、開発する。
このシステムは95.6%のキーストローク保存と、一貫したパフォーマンスと高いユーザ満足度を示す。
我々は,AIを活用したテキスト生成システム設計のための3つの設計ガイドラインを抽出し,AACの目的に適した4つのユーザ要件レベルを概説し,今後の研究を導く。
関連論文リスト
- Emotionally Intelligent Task-oriented Dialogue Systems: Architecture, Representation, and Optimisation [5.568911171405307]
タスク指向対話(ToD)システムは、自然言語による対話を通じてユーザが特定の目標を達成するのを支援するように設計されている。
ToDシステムのアーキテクチャ、表現、最適化、および感情的考察について検討する。
textbfLLM-based textbfUnified textbfSystem for textbfTask-oriented dialogue with textbfEnd-to-end textbfReinforcement Learning with both short-term (user)を提案する。
論文 参考訳(メタデータ) (2025-07-02T11:00:33Z) - Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation [13.559210762117061]
本稿では,音声クエリから関連するテキスト知識を直接取得する,新しいエンドツーエンドRAGフレームワークを提案する。
実験結果から,本手法はエンドツーエンドのS2S対話システムの性能を大幅に向上させることが示された。
我々のフレームワークは、エンド・ツー・エンドのS2Sシステムにおける知識統合を強化するための有望な方向性を提供します。
論文 参考訳(メタデータ) (2025-04-27T14:35:24Z) - Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication [9.812902134556971]
Speak Easeは、ユーザの表現性をサポートするための拡張的で代替的なコミュニケーションシステムである。
システムは、テキスト、音声、文脈の手がかりを含むマルチモーダル入力を、大きな言語モデルと統合する。
論文 参考訳(メタデータ) (2025-03-21T18:50:05Z) - Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Language-Oriented Communication with Semantic Coding and Knowledge
Distillation for Text-to-Image Generation [53.97155730116369]
我々は言語指向意味コミュニケーション(LSC)の新しい枠組みを提唱した。
LSCでは、機械は人間の言語メッセージを使って通信し、SC効率のために自然言語処理(NLP)技術を用いて解釈および操作することができる。
1) テキストプロンプトをキーヘッドワードに圧縮するセマンティック・ソース・コーディング(SSC)、2) セマンティック・チャネル・コーディング(SCC)、2) セマンティック・チャネル・コーディング(SCC)、3) セマンティック・ナレッジ・蒸留(SKD)、3) リスナーの言語学習を通じてリスナーに適応したプロンプトを生成するセマンティック・ナレッジ・蒸留(SKD)の3つの革新的なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-20T08:19:05Z) - Sequential Semantic Generative Communication for Progressive
Text-to-Image Generation [32.82954905044597]
本稿では,多モード生成モデルの有望な生成能力を活用した通信システムを提案する。
送信機は、多モデル生成プロセスを介して客観的画像をテキストに変換し、受信機は、逆処理を用いて画像を再構成する。
我々の研究は、最先端の生成モデルを実際の通信システムに活用する新たな道を開くことが期待されている。
論文 参考訳(メタデータ) (2023-09-08T12:17:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - A novel multimodal dynamic fusion network for disfluency detection in
spoken utterances [43.79216238760557]
個人発話からの拡散検出のための新しいマルチモーダルアーキテクチャを提案する。
我々のアーキテクチャは、既存のテキストエンコーダに最小限のパラメータを追加するマルチモーダルダイナミックフュージョンネットワークを活用している。
提案手法は, 広範に使われている英語スイッチボードを用いて, ディフルエンシ検出のための最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-27T01:54:22Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。