論文の概要: A Multimodal GUI Architecture for Interfacing with LLM-Based Conversational Assistants
- arxiv url: http://arxiv.org/abs/2510.06223v2
- Date: Thu, 09 Oct 2025 12:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.744042
- Title: A Multimodal GUI Architecture for Interfacing with LLM-Based Conversational Assistants
- Title(参考訳): LLMに基づく対話型アシスタントとの対話のためのマルチモーダルGUIアーキテクチャ
- Authors: Hans G. W. van Dam,
- Abstract要約: 本稿では、GUIが音声対応アシスタントと対話できる具体的なアーキテクチャを提供する。
アーキテクチャにより、アプリケーションのナビゲーショングラフとセマンティクスは、モデルコンテキストプロトコル(MCP)を介して利用可能になる。
プライバシとデータセキュリティに関する懸念に対処するため、音声対応マルチモーダルUIのためのローカル展開可能なオープンウェイトLLMの実用的有効性を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in large language models (LLMs) and real-time speech recognition now make it possible to issue any graphical user interface (GUI) action through natural language and receive the corresponding system response directly through the GUI. Most production applications were never designed with speech in mind. This article provides a concrete architecture that enables GUIs to interface with LLM-based speech-enabled assistants. The architecture makes an application's navigation graph and semantics available through the Model Context Protocol (MCP). The ViewModel, part of the MVVM (Model-View-ViewModel) pattern, exposes the application's capabilities to the assistant by supplying both tools applicable to a currently visible view and application-global tools extracted from the GUI tree router. This architecture facilitates full voice accessibility while ensuring reliable alignment between spoken input and the visual interface, accompanied by consistent feedback across modalities. It future-proofs apps for upcoming OS super assistants that employ computer use agents (CUAs) and natively consume MCP if an application provides it. To address concerns about privacy and data security, the practical effectiveness of locally deployable, open-weight LLMs for speech-enabled multimodal UIs is evaluated. Findings suggest that recent smaller open-weight models approach the performance of leading proprietary models in overall accuracy and require enterprise-grade hardware for fast responsiveness. A demo implementation of the proposed architecture can be found at https://github.com/hansvdam/langbar
- Abstract(参考訳): 大規模言語モデル(LLM)とリアルタイム音声認識の進歩により、自然言語を介してグラフィカルユーザインタフェース(GUI)アクションを発行し、GUIを介して対応するシステム応答を直接受信することが可能になった。
ほとんどのプロダクションアプリケーションは、音声を念頭に設計されることはなかった。
本稿では、GUIがLLMベースの音声対応アシスタントとインターフェースできる具体的なアーキテクチャを提供する。
このアーキテクチャは、アプリケーションのナビゲーショングラフとセマンティクスを、モデルコンテキストプロトコル(MCP)を通じて利用できるようにする。
MVVM(Model-View-ViewModel)パターンの一部であるViewModelは、現在見えるビューに適用可能なツールとGUIツリールータから抽出されたアプリケーション-グローバルツールの両方を提供することで、アプリケーションの機能をアシスタントに公開する。
このアーキテクチャは、音声入力と視覚インタフェースの信頼性を確保しつつ、完全な音声アクセシビリティを促進する。
将来的には、コンピュータ利用エージェント(CUA)を採用し、アプリケーションが提供すればネイティブにMPPを消費する、OSスーパーアシスタント用のアプリを保護します。
プライバシとデータセキュリティに関する懸念に対処するため、音声対応マルチモーダルUIのためのローカル展開可能なオープンウェイトLLMの実用的有効性を評価した。
最近のより小さなオープンウェイトモデルは、全体的な精度で主要なプロプライエタリモデルのパフォーマンスにアプローチし、迅速な応答性のためにエンタープライズグレードのハードウェアを必要とすることを示唆している。
提案されたアーキテクチャのデモ実装はhttps://github.com/hansvdam/langbarで見ることができる。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI [28.484013258445067]
我々はGUIベースのタスク指向対話システム(GUI-TOD)という新しいTODアーキテクチャを提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
論文 参考訳(メタデータ) (2022-05-23T04:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。