論文の概要: Referring to Screen Texts with Voice Assistants
- arxiv url: http://arxiv.org/abs/2306.07298v1
- Date: Sat, 10 Jun 2023 22:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:26:24.080709
- Title: Referring to Screen Texts with Voice Assistants
- Title(参考訳): 音声アシスタントによる画面テキストの参照
- Authors: Shruti Bhargava, Anand Dhoot, Ing-Marie Jonsson, Hoang Long Nguyen,
Alkesh Patel, Hong Yu, Vincent Renkens
- Abstract要約: われわれの研究は、ユーザーが電話番号、住所、メールアドレス、URL、日付を電話画面で参照するための新しい体験を掘り下げている。
これは、複数の類似したテキストが画面に現れると、特に興味深いものになります。
直接ピクセルを消費するコストが高いため、このシステムはUIから抽出したテキストに依存するように設計されている。
- 参考スコア(独自算出の注目度): 5.62305568174015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants help users make phone calls, send messages, create events,
navigate, and do a lot more. However, assistants have limited capacity to
understand their users' context. In this work, we aim to take a step in this
direction. Our work dives into a new experience for users to refer to phone
numbers, addresses, email addresses, URLs, and dates on their phone screens.
Our focus lies in reference understanding, which becomes particularly
interesting when multiple similar texts are present on screen, similar to
visual grounding. We collect a dataset and propose a lightweight
general-purpose model for this novel experience. Due to the high cost of
consuming pixels directly, our system is designed to rely on the extracted text
from the UI. Our model is modular, thus offering flexibility, improved
interpretability, and efficient runtime memory utilization.
- Abstract(参考訳): 音声アシスタントは、ユーザーが電話をかけたり、メッセージを送ったり、イベントを作ったり、ナビゲートしたり、いろんなことができる。
しかし、アシスタントはユーザーのコンテキストを理解する能力に限界がある。
この作業では、この方向を一歩進めることを目指しています。
我々の研究は、ユーザーが電話番号、住所、メールアドレス、URL、日付を電話画面で参照するための新しい体験を掘り下げている。
視覚的な接地のように、複数の類似したテキストが画面に現れると、特に興味深い。
データセットを収集し、この新しい体験のための軽量汎用モデルを提案する。
ピクセルを直接消費するコストが高いため,本システムはuiから抽出されたテキストに依存するように設計されている。
我々のモデルはモジュール化されており、柔軟性、解釈可能性の改善、効率的なランタイムメモリ利用を提供する。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Rewriting the Script: Adapting Text Instructions for Voice Interaction [39.54213483588498]
音声アシスタントが複雑なタスクガイダンスにもたらす支配的アプローチの限界について検討する。
そこで本稿では,音声アシスタントが音声対話を通じて容易にコミュニケーションできる形態に変換できる8つの方法を提案する。
論文 参考訳(メタデータ) (2023-06-16T17:43:00Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Enabling Conversational Interaction with Mobile UI using Large Language
Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-09-18T20:58:39Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning [34.24671403624908]
Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。
そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
論文 参考訳(メタデータ) (2021-08-07T03:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。