論文の概要: Exploring Mobile Touch Interaction with Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07629v1
- Date: Tue, 11 Feb 2025 15:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:14.324091
- Title: Exploring Mobile Touch Interaction with Large Language Models
- Title(参考訳): 大規模言語モデルによるモバイルタッチインタラクションの探索
- Authors: Tim Zindulka, Jannek Sekowski, Florian Lehmann, Daniel Buschek,
- Abstract要約: テキスト上で直接実行されるタッチジェスチャーを用いて,大規模言語モデルを制御することを提案する。
以上の結果から, LLMのタッチによる制御は, 実現可能かつユーザフレンドリであることがわかった。
この研究は、タッチデバイス上でのLDMとのジェスチャーによるインタラクションに関するさらなる研究の基盤となる。
- 参考スコア(独自算出の注目度): 26.599610206222142
- License:
- Abstract: Interacting with Large Language Models (LLMs) for text editing on mobile devices currently requires users to break out of their writing environment and switch to a conversational AI interface. In this paper, we propose to control the LLM via touch gestures performed directly on the text. We first chart a design space that covers fundamental touch input and text transformations. In this space, we then concretely explore two control mappings: spread-to-generate and pinch-to-shorten, with visual feedback loops. We evaluate this concept in a user study (N=14) that compares three feedback designs: no visualisation, text length indicator, and length + word indicator. The results demonstrate that touch-based control of LLMs is both feasible and user-friendly, with the length + word indicator proving most effective for managing text generation. This work lays the foundation for further research into gesture-based interaction with LLMs on touch devices.
- Abstract(参考訳): モバイルデバイスでテキスト編集を行うためのLarge Language Models (LLMs)とのインタラクションは、現時点では、記述環境から抜け出し、会話型のAIインターフェースに切り替える必要がある。
本稿では,テキスト上で直接実行されるタッチジェスチャーを用いてLLMを制御することを提案する。
まず、基本的なタッチ入力とテキスト変換をカバーするデザイン空間をグラフ化します。
この空間では、視覚的なフィードバックループを持つスプレッド・トゥ・ジェネレーションとピンチ・ツー・スローテンの2つの制御マッピングを具体的に探索する。
我々は,この概念を3つのフィードバック設計と比較したユーザスタディ (N=14) で評価した。
その結果, LLMのタッチによる制御は, テキスト生成に最も有効である長さ+単語インジケータによって実現可能であり, ユーザフレンドリであることがわかった。
この研究は、タッチデバイス上でのLDMとのジェスチャーによるインタラクションに関するさらなる研究の基盤となる。
関連論文リスト
- Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM [37.640412098917636]
マルチモーダル言語モデル(MLLM)の機能を拡張するインタラクティブな家具レイアウト生成システムを提案する。
本フレームワークでは,MLLMのレイアウト計画に関する推論を支援する,新しい学習自由な視覚機構を提案する。
実験により,本手法は多種多様な複雑な3次元家具の言語間相互作用の生成と配置を容易にすることが示された。
論文 参考訳(メタデータ) (2024-07-31T04:49:46Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Using Large Language Models to Accelerate Communication for Users with
Severe Motor Impairments [17.715162857028595]
本稿では,大規模言語モデル (LLM) と,テキスト入力のためのユーザインタフェースを高度に短縮した形で設計したSpeakFasterについて述べる。
モバイル端末上で手動入力を行う19人の非AAC参加者によるパイロット研究は、オフラインシミュレーションに従って、モーターセーブの増加を実証した。
筋萎縮性側索硬化症 (ALS) を呈する2人の眼球運動者を対象に, 実験とフィールドテストを行ったところ, 従来の基準値よりも29~60%高速であった。
論文 参考訳(メタデータ) (2023-12-03T23:12:49Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Enabling Conversational Interaction with Mobile UI using Large Language
Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-09-18T20:58:39Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning [34.24671403624908]
Mobile User Interface Summarizationは、画面の重要な内容と機能を伝えるためのモバイル画面の簡潔な言語記述を生成する。
そこで我々は,UI画面の基本情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法であるScreen2Wordsを提案する。
論文 参考訳(メタデータ) (2021-08-07T03:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。