論文の概要: Speakerly: A Voice-based Writing Assistant for Text Composition
- arxiv url: http://arxiv.org/abs/2310.16251v1
- Date: Tue, 24 Oct 2023 23:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:39:03.332082
- Title: Speakerly: A Voice-based Writing Assistant for Text Composition
- Title(参考訳): speakerly:テキスト合成のための音声ベースのライティングアシスタント
- Authors: Dhruv Kumar, Vipul Raheja, Alice Kaiser-Schatzlein, Robyn Perry,
Apurva Joshi, Justin Hugues-Nuger, Samuel Lou, Navid Chowdhury
- Abstract要約: Speakerlyは、新しいリアルタイム音声ベースの筆記支援システムだ。
メール、インスタントメッセージ、ノートなど、さまざまなユースケースにまたがるテキスト構成のユーザを支援する。
- 参考スコア(独自算出の注目度): 4.216669889748762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Speakerly, a new real-time voice-based writing assistance system
that helps users with text composition across various use cases such as emails,
instant messages, and notes. The user can interact with the system through
instructions or dictation, and the system generates a well-formatted and
coherent document. We describe the system architecture and detail how we
address the various challenges while building and deploying such a system at
scale. More specifically, our system uses a combination of small, task-specific
models as well as pre-trained language models for fast and effective text
composition while supporting a variety of input modes for better usability.
- Abstract(参考訳): メールやインスタントメッセージ,ノートなど,さまざまなユースケースにわたるテキスト合成を支援する,リアルタイム音声による文字作成支援システムである speakerly を提案する。
ユーザーは指示や指示を通じてシステムと対話でき、システムはよく書式化され、一貫性のある文書を生成する。
システムアーキテクチャと,このようなシステムを大規模に構築およびデプロイする上でのさまざまな課題に対する対処方法について詳述する。
具体的には,タスク固有モデルと事前学習した言語モデルを組み合わせて,テキスト合成を高速かつ効果的に行うとともに,多様な入力モードをサポートしてユーザビリティを向上させる。
関連論文リスト
- SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - An Ensemble Approach to Personalized Real Time Predictive Writing for
Experts [0.05261718469769446]
大きな言語モデル、伝統的なマルコフモデル、シャーレベルモデルなど、さまざまなアプローチを結びつけて、エンドツーエンドシステムを作ります。
提案されたシステムは、パーソナライズした文章を書きながら、自動補完文、フレーズまたは単語を作成できる。
論文 参考訳(メタデータ) (2023-08-25T12:45:46Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Building a Personalized Dialogue System with Prompt-Tuning [5.942602139622984]
与えられた文字設定(ペルソナ)に基づいて応答する対話システムを構築する。
本稿では,事前学習された大規模言語モデルに対して,学習コストの低いプロンプトチューニングを利用する手法を提案する。
論文 参考訳(メタデータ) (2022-06-11T02:21:11Z) - VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-01T09:43:02Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z) - MeetDot: Videoconferencing with Live Translation Captions [18.60812558978417]
本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
論文 参考訳(メタデータ) (2021-09-20T14:34:14Z) - Stylistic Retrieval-based Dialogue System with Unparallel Training Data [19.777894827625275]
本稿では,並列データを持たない特定のペルソナの言語スタイルを模倣するために,汎用的な検索ベース対話システムに適応するフレキシブルなフレームワークを提案する。
提案手法は, ジェルゴンの使用法を学習し, ジェルゴンを組み込むことで, ジェネリックな会話をスタイル化されたものに書き換えることによって, スタイル化されたデータの自動生成に基づく。
論文 参考訳(メタデータ) (2021-09-12T09:56:24Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Attention over Parameters for Dialogue Systems [69.48852519856331]
我々は,異なる対話スキルを個別にパラメータ化する対話システムを学び,AoP(Attention over Parameters)を通じてそれぞれを選択し,組み合わせることを学ぶ。
実験の結果,MultiWOZ,In-Car Assistant,Persona-Chatの複合データセット上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-01-07T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。