論文の概要: StepWrite: Adaptive Planning for Speech-Driven Text Generation
- arxiv url: http://arxiv.org/abs/2508.04011v1
- Date: Wed, 06 Aug 2025 01:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.500623
- Title: StepWrite: Adaptive Planning for Speech-Driven Text Generation
- Title(参考訳): StepWrite: 音声駆動型テキスト生成のための適応的プランニング
- Authors: Hamza El Alaoui, Atieh Taheri, Yi-Hao Peng, Jeffrey P. Bigham,
- Abstract要約: StepWriteは、大規模な言語モデルによる音声ベースのインタラクションシステムである。
移動中に長文の構造化、ハンズフリー、目のない合成を可能にする。
コンテキストトラッキングと適応計画タスクをモデルにオフロードすることで、認知負荷を低減する。
- 参考スコア(独自算出の注目度): 18.286742472385633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People frequently use speech-to-text systems to compose short texts with voice. However, current voice-based interfaces struggle to support composing more detailed, contextually complex texts, especially in scenarios where users are on the move and cannot visually track progress. Longer-form communication, such as composing structured emails or thoughtful responses, requires persistent context tracking, structured guidance, and adaptability to evolving user intentions--capabilities that conventional dictation tools and voice assistants do not support. We introduce StepWrite, a large language model-driven voice-based interaction system that augments human writing ability by enabling structured, hands-free and eyes-free composition of longer-form texts while on the move. StepWrite decomposes the writing process into manageable subtasks and sequentially guides users with contextually-aware non-visual audio prompts. StepWrite reduces cognitive load by offloading the context-tracking and adaptive planning tasks to the models. Unlike baseline methods like standard dictation features (e.g., Microsoft Word) and conversational voice assistants (e.g., ChatGPT Advanced Voice Mode), StepWrite dynamically adapts its prompts based on the evolving context and user intent, and provides coherent guidance without compromising user autonomy. An empirical evaluation with 25 participants engaging in mobile or stationary hands-occupied activities demonstrated that StepWrite significantly reduces cognitive load, improves usability and user satisfaction compared to baseline methods. Technical evaluations further confirmed StepWrite's capability in dynamic contextual prompt generation, accurate tone alignment, and effective fact checking. This work highlights the potential of structured, context-aware voice interactions in enhancing hands-free and eye-free communication in everyday multitasking scenarios.
- Abstract(参考訳): 人々はしばしば音声で短いテキストを構成するために音声テキストシステムを使う。
しかし、現在の音声ベースのインターフェイスは、特にユーザが動き始めており、進捗を視覚的に追跡できないシナリオにおいて、より詳細で、文脈的に複雑なテキストの作成をサポートするのに苦労している。
構造化メールや思慮深い応答を構成するような、より長い形式のコミュニケーションには、永続的なコンテキストトラッキング、構造化ガイダンス、ユーザの意図の進化への適応性が必要です。
移動中の長文の構造化, ハンズフリー, 無目合成を可能にし, 人間の筆記能力を向上させる, 大規模言語モデル駆動音声ベースインタラクションシステムであるStepWriteを紹介する。
StepWriteは、書き込みプロセスを管理可能なサブタスクに分解し、コンテキスト対応の非視覚的オーディオプロンプトでユーザをシーケンシャルにガイドする。
StepWriteは、コンテキストトラッキングと適応計画タスクをモデルにオフロードすることで、認知負荷を低減する。
標準的なディクテーション機能(例えば、Microsoft Word)や会話音声アシスタント(例えば、ChatGPT Advanced Voice Mode)のようなベースラインメソッドとは異なり、StepWriteは進化するコンテキストとユーザの意図に基づいてプロンプトを動的に適応し、ユーザの自律性を損なうことなく一貫性のあるガイダンスを提供する。
モバイルや定時的手作業に携わる25名の被験者による経験的評価の結果,StepWriteは認知負荷を有意に低減し,ユーザビリティとユーザ満足度をベースライン法と比較して向上させることがわかった。
技術的評価により、動的文脈的プロンプト生成、正確なトーンアライメント、効果的な事実チェックにおけるStepWriteの機能はさらに確認された。
この研究は、日常的なマルチタスクシナリオにおけるハンズフリーとアイフリーのコミュニケーションを強化する上で、構造化されたコンテキスト対応音声対話の可能性を強調している。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Semantics-Aware Human Motion Generation from Audio Instructions [25.565742045932236]
本稿では,音声のセマンティクスに適合した動作を生成するための条件付け入力として音声信号を使用する新しいタスクについて検討する。
本稿では,メモリ検索型アテンションモジュールによって強化されたマスク付き生成変換器を用いて,スパースおよび長大な音声入力を処理するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T14:16:27Z) - InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。
テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。
本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文 参考訳(メタデータ) (2024-10-24T23:18:02Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Rewriting the Script: Adapting Text Instructions for Voice Interaction [39.54213483588498]
音声アシスタントが複雑なタスクガイダンスにもたらす支配的アプローチの限界について検討する。
そこで本稿では,音声アシスタントが音声対話を通じて容易にコミュニケーションできる形態に変換できる8つの方法を提案する。
論文 参考訳(メタデータ) (2023-06-16T17:43:00Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Hierarchical Summarization for Longform Spoken Dialog [1.995792341399967]
音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は依然として著しく貧弱である。
テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの追加的な課題を生んでいる。
本稿では、2段階のASRとテキスト要約パイプラインを提案し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-21T23:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。