論文の概要: Enabling Conversational Interaction with Mobile UI using Large Language
Models
- arxiv url: http://arxiv.org/abs/2209.08655v1
- Date: Sun, 18 Sep 2022 20:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:12:52.657307
- Title: Enabling Conversational Interaction with Mobile UI using Large Language
Models
- Title(参考訳): 大規模言語モデルを用いたモバイルUIとの対話インタラクションの実現
- Authors: Bryan Wang, Gang Li, Yang Li
- Abstract要約: 自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
- 参考スコア(独自算出の注目度): 15.907868408556885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational agents show the promise to allow users to interact with mobile
devices using language. However, to perform diverse UI tasks with natural
language, developers typically need to create separate datasets and models for
each specific task, which is expensive and effort-consuming. Recently,
pre-trained large language models (LLMs) have been shown capable of
generalizing to various downstream tasks when prompted with a handful of
examples from the target task. This paper investigates the feasibility of
enabling versatile conversational interactions with mobile UIs using a single
LLM. We propose a design space to categorize conversations between the user and
the agent when collaboratively accomplishing mobile tasks. We design prompting
techniques to adapt an LLM to conversational tasks on mobile UIs. The
experiments show that our approach enables various conversational interactions
with decent performances, manifesting its feasibility. We discuss the use cases
of our work and its implications for language-based mobile interaction.
- Abstract(参考訳): 会話エージェントは、ユーザーが言語を使ってモバイルデバイスと対話できることを約束します。
しかし、自然言語で多様なuiタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
近年,学習済みの大規模言語モデル (LLM) は,対象タスクからいくつかの例を抽出して,様々な下流タスクに一般化できることが示されている。
本稿では,単一LLMを用いたモバイルUIとの多目的対話の実現可能性について検討する。
モバイルタスクを協調的に実行する際に,ユーザとエージェント間の会話を分類する設計空間を提案する。
モバイルUI上での会話タスクにLLMを適用するためのプロンプト手法を設計する。
実験の結果,本手法は適切な性能と様々な対話的対話を可能にし,その実現可能性を示している。
本研究のユースケースと,その言語に基づくモバイルインタラクションへの影響について考察する。
関連論文リスト
- SAUCE: Synchronous and Asynchronous User-Customizable Environment for Multi-Agent LLM Interaction [12.948174983519785]
グループシミュレーションのためのカスタマイズ可能なPythonプラットフォームであるSAUCEを紹介する。
我々のプラットフォームは、モデルをインスタンス化し、レスポンスをスケジューリングし、議論履歴を管理し、包括的なアウトプットログを生成する。
SAUCEの新機能は非同期通信機能です。
論文 参考訳(メタデータ) (2024-11-05T18:31:06Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation,
Generation and Editing [99.80742991922992]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。
LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文 参考訳(メタデータ) (2023-11-01T15:13:43Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning [34.24671403624908]
Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。
そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
論文 参考訳(メタデータ) (2021-08-07T03:01:23Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。