Fugu-MT 論文翻訳(概要): Speakerly: A Voice-based Writing Assistant for Text Composition

論文の概要: Speakerly: A Voice-based Writing Assistant for Text Composition

arxiv url: http://arxiv.org/abs/2310.16251v1
Date: Tue, 24 Oct 2023 23:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 17:39:03.332082
Title: Speakerly: A Voice-based Writing Assistant for Text Composition
Title（参考訳）: speakerly:テキスト合成のための音声ベースのライティングアシスタント
Authors: Dhruv Kumar, Vipul Raheja, Alice Kaiser-Schatzlein, Robyn Perry, Apurva Joshi, Justin Hugues-Nuger, Samuel Lou, Navid Chowdhury
Abstract要約: Speakerlyは、新しいリアルタイム音声ベースの筆記支援システムだ。メール、インスタントメッセージ、ノートなど、さまざまなユースケースにまたがるテキスト構成のユーザを支援する。
参考スコア（独自算出の注目度）: 4.216669889748762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Speakerly, a new real-time voice-based writing assistance system that helps users with text composition across various use cases such as emails, instant messages, and notes. The user can interact with the system through instructions or dictation, and the system generates a well-formatted and coherent document. We describe the system architecture and detail how we address the various challenges while building and deploying such a system at scale. More specifically, our system uses a combination of small, task-specific models as well as pre-trained language models for fast and effective text composition while supporting a variety of input modes for better usability.
Abstract（参考訳）: メールやインスタントメッセージ,ノートなど,さまざまなユースケースにわたるテキスト合成を支援する,リアルタイム音声による文字作成支援システムである speakerly を提案する。ユーザーは指示や指示を通じてシステムと対話でき、システムはよく書式化され、一貫性のある文書を生成する。システムアーキテクチャと,このようなシステムを大規模に構築およびデプロイする上でのさまざまな課題に対する対処方法について詳述する。具体的には,タスク固有モデルと事前学習した言語モデルを組み合わせて,テキスト合成を高速かつ効果的に行うとともに,多様な入力モードをサポートしてユーザビリティを向上させる。

関連論文リスト

StepWrite: Adaptive Planning for Speech-Driven Text Generation [18.286742472385633]
StepWriteは、大規模な言語モデルによる音声ベースのインタラクションシステムである。移動中に長文の構造化、ハンズフリー、目のない合成を可能にする。コンテキストトラッキングと適応計画タスクをモデルにオフロードすることで、認知負荷を低減する。
論文参考訳（メタデータ） (2025-08-06T01:50:17Z)
MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。 10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文参考訳（メタデータ） (2025-07-14T23:20:42Z)
System Message Generation for User Preferences using Open-Source Models [4.387048445855714]
システムメッセージは、大規模言語モデル(LLM)との相互作用において重要な役割を果たす我々は,システムメッセージを生成するパイプラインであるSysGenを紹介した。 SysGenデータ上でのオープンソースモデルのトレーニングは、シングルターン(Multifacet)とマルチターン(SysBench)の会話ベンチマークの両方で大幅に改善される。
論文参考訳（メタデータ） (2025-02-17T01:05:31Z)
Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文参考訳（メタデータ） (2025-02-14T08:00:42Z)
On the Use of Audio to Improve Dialogue Policies [9.35212661749004]
音声とテキストの埋め込みを組み合わせることで、音声情報を追加する新しいアーキテクチャを提案する。実験により、音声埋め込み対応対話ポリシーがテキストベースよりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-17T09:37:20Z)
Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-01T02:24:18Z)
Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文参考訳（メタデータ） (2024-07-12T12:16:14Z)
SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文参考訳（メタデータ） (2024-01-31T18:06:29Z)
An Ensemble Approach to Personalized Real Time Predictive Writing for Experts [0.05261718469769446]
大きな言語モデル、伝統的なマルコフモデル、シャーレベルモデルなど、さまざまなアプローチを結びつけて、エンドツーエンドシステムを作ります。提案されたシステムは、パーソナライズした文章を書きながら、自動補完文、フレーズまたは単語を作成できる。
論文参考訳（メタデータ） (2023-08-25T12:45:46Z)
Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-06T19:17:47Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Who says like a style of Vitamin: Towards Syntax-Aware DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。構文認識情報と対話要約の両方をマルチタスクで学習する。
論文参考訳（メタデータ） (2021-09-29T05:30:39Z)
Stylistic Retrieval-based Dialogue System with Unparallel Training Data [19.777894827625275]
本稿では,並列データを持たない特定のペルソナの言語スタイルを模倣するために,汎用的な検索ベース対話システムに適応するフレキシブルなフレームワークを提案する。提案手法は, ジェルゴンの使用法を学習し, ジェルゴンを組み込むことで, ジェネリックな会話をスタイル化されたものに書き換えることによって, スタイル化されたデータの自動生成に基づく。
論文参考訳（メタデータ） (2021-09-12T09:56:24Z)
Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文参考訳（メタデータ） (2021-03-30T18:02:58Z)
Attention over Parameters for Dialogue Systems [69.48852519856331]
我々は,異なる対話スキルを個別にパラメータ化する対話システムを学び,AoP(Attention over Parameters)を通じてそれぞれを選択し,組み合わせることを学ぶ。実験の結果,MultiWOZ,In-Car Assistant,Persona-Chatの複合データセット上での競合性能が得られた。
論文参考訳（メタデータ） (2020-01-07T03:10:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。