論文の概要: GUIRoboTron-Speech: Towards Automated GUI Agents Based on Speech Instructions
- arxiv url: http://arxiv.org/abs/2506.11127v1
- Date: Tue, 10 Jun 2025 12:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.491302
- Title: GUIRoboTron-Speech: Towards Automated GUI Agents Based on Speech Instructions
- Title(参考訳): GUIRoboTron-Speech:音声命令に基づくGUIエージェントの自動化に向けて
- Authors: Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Longrong Yang, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma,
- Abstract要約: GUIRoboTron-Speechは、音声命令とデバイス上のスクリーンショットを受信してアクションを予測する、エンドツーエンドの自律GUIエージェントである。
私たちのコードとデータセットはhttps://github.com/GUIRoboTron/GUIRoboTron-Speech.comで公開されています。
- 参考スコア(独自算出の注目度): 12.75041836138035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents for Graphical User Interfaces (GUIs) are revolutionizing human-computer interaction, yet their reliance on text-based instructions imposes limitations on accessibility and convenience, particularly in hands-free scenarios. To address this gap, we propose GUIRoboTron-Speech, the first end-to-end autonomous GUI agent that directly accepts speech instructions and on-device screenshots to predict actions. Confronted with the scarcity of speech-based GUI agent datasets, we initially generated high-quality speech instructions for training by leveraging a random timbre text-to-speech (TTS) model to convert existing text instructions. We then develop GUIRoboTron-Speech's capabilities through progressive grounding and planning training stages. A key contribution is a heuristic mixed-instruction training strategy designed to mitigate the modality imbalance inherent in pre-trained foundation models. Comprehensive experiments on several benchmark datasets validate the robust and superior performance of GUIRoboTron-Speech, demonstrating the significant potential and widespread applicability of speech as an effective instruction modality for driving GUI agents. Our code and datasets are available at https://github.com/GUIRoboTron/GUIRoboTron-Speech.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)の自律エージェントは、人間とコンピュータのインタラクションに革命をもたらしているが、テキストベースの命令に依存しているため、アクセシビリティと利便性、特にハンズフリーシナリオに制限が課されている。
このギャップに対処するため,GUIRoboTron-Speechを提案する。
音声ベースのGUIエージェントデータセットの不足と相まって、既存のテキスト命令を変換するために、ランダムな音質テキスト合成(TTS)モデルを活用することによって、訓練のための高品質な音声命令を生成した。
そこで,GUIRoboTron-Speechの能力は,プログレッシブグラウンドと計画訓練段階を通じて開発する。
鍵となる貢献は、事前訓練された基礎モデルに固有のモダリティの不均衡を軽減するために設計されたヒューリスティックな混合指導訓練戦略である。
複数のベンチマークデータセットの総合的な実験によりGUIRoboTron-Speechの堅牢かつ優れた性能が検証され、GUIエージェントを駆動するための効果的な命令モダリティとして、音声の有意な可能性と広範な適用性を示す。
私たちのコードとデータセットはhttps://github.com/GUIRoboTron/GUIRoboTron-Speech.comで公開されています。
関連論文リスト
- Speechless: Speech Instruction Training Without Speech for Low Resource Languages [14.223895501862811]
音声コマンドの理解と実行を微調整する大規模言語モデルには,音声命令データの不足が不可欠である。
我々の新しいアプローチは、TSの必要性を回避し、意味表現レベルでの合成を停止することで、この問題に対処する。
我々は,合成意味表現を事前訓練されたWhisperエンコーダと整合させ,LLMをテキスト命令で微調整し,推論中の音声命令を理解する能力を維持しながら実現した。
論文 参考訳(メタデータ) (2025-05-23T03:05:47Z) - InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。