論文の概要: Speakerly: A Voice-based Writing Assistant for Text Composition
- arxiv url: http://arxiv.org/abs/2310.16251v1
- Date: Tue, 24 Oct 2023 23:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:39:03.332082
- Title: Speakerly: A Voice-based Writing Assistant for Text Composition
- Title(参考訳): speakerly:テキスト合成のための音声ベースのライティングアシスタント
- Authors: Dhruv Kumar, Vipul Raheja, Alice Kaiser-Schatzlein, Robyn Perry,
Apurva Joshi, Justin Hugues-Nuger, Samuel Lou, Navid Chowdhury
- Abstract要約: Speakerlyは、新しいリアルタイム音声ベースの筆記支援システムだ。
メール、インスタントメッセージ、ノートなど、さまざまなユースケースにまたがるテキスト構成のユーザを支援する。
- 参考スコア(独自算出の注目度): 4.216669889748762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Speakerly, a new real-time voice-based writing assistance system
that helps users with text composition across various use cases such as emails,
instant messages, and notes. The user can interact with the system through
instructions or dictation, and the system generates a well-formatted and
coherent document. We describe the system architecture and detail how we
address the various challenges while building and deploying such a system at
scale. More specifically, our system uses a combination of small, task-specific
models as well as pre-trained language models for fast and effective text
composition while supporting a variety of input modes for better usability.
- Abstract(参考訳): メールやインスタントメッセージ,ノートなど,さまざまなユースケースにわたるテキスト合成を支援する,リアルタイム音声による文字作成支援システムである speakerly を提案する。
ユーザーは指示や指示を通じてシステムと対話でき、システムはよく書式化され、一貫性のある文書を生成する。
システムアーキテクチャと,このようなシステムを大規模に構築およびデプロイする上でのさまざまな課題に対する対処方法について詳述する。
具体的には,タスク固有モデルと事前学習した言語モデルを組み合わせて,テキスト合成を高速かつ効果的に行うとともに,多様な入力モードをサポートしてユーザビリティを向上させる。
関連論文リスト
- On the Use of Audio to Improve Dialogue Policies [9.35212661749004]
音声とテキストの埋め込みを組み合わせることで、音声情報を追加する新しいアーキテクチャを提案する。
実験により、音声埋め込み対応対話ポリシーがテキストベースよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-17T09:37:20Z) - Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。
音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。
アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文 参考訳(メタデータ) (2024-07-12T12:16:14Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - An Ensemble Approach to Personalized Real Time Predictive Writing for
Experts [0.05261718469769446]
大きな言語モデル、伝統的なマルコフモデル、シャーレベルモデルなど、さまざまなアプローチを結びつけて、エンドツーエンドシステムを作ります。
提案されたシステムは、パーソナライズした文章を書きながら、自動補完文、フレーズまたは単語を作成できる。
論文 参考訳(メタデータ) (2023-08-25T12:45:46Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z) - Stylistic Retrieval-based Dialogue System with Unparallel Training Data [19.777894827625275]
本稿では,並列データを持たない特定のペルソナの言語スタイルを模倣するために,汎用的な検索ベース対話システムに適応するフレキシブルなフレームワークを提案する。
提案手法は, ジェルゴンの使用法を学習し, ジェルゴンを組み込むことで, ジェネリックな会話をスタイル化されたものに書き換えることによって, スタイル化されたデータの自動生成に基づく。
論文 参考訳(メタデータ) (2021-09-12T09:56:24Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Attention over Parameters for Dialogue Systems [69.48852519856331]
我々は,異なる対話スキルを個別にパラメータ化する対話システムを学び,AoP(Attention over Parameters)を通じてそれぞれを選択し,組み合わせることを学ぶ。
実験の結果,MultiWOZ,In-Car Assistant,Persona-Chatの複合データセット上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-01-07T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。