論文の概要: UGIF: UI Grounded Instruction Following
- arxiv url: http://arxiv.org/abs/2211.07615v1
- Date: Mon, 14 Nov 2022 18:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:48:07.921598
- Title: UGIF: UI Grounded Instruction Following
- Title(参考訳): UGIF:UIの接地命令に続くもの
- Authors: Sagar Gubbi Venkatesh, Partha Talukdar, Srini Narayanan
- Abstract要約: そこで本研究では,UI上で動作し,ユーザに対して様々なタスクの実行方法を示す自然言語ベースの命令追従エージェントを提案する。
未知の番号からの呼び出しをブロックする方法?」といった一般的なハウツー質問は、サポートサイトで文書化されている。
これらのステップをLLM(Large Language Models)を用いて解析し、ユーザがクエリーを尋ねるとデバイス上で実行できるマクロを生成する。
- 参考スコア(独自算出の注目度): 2.9649783577150837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New smartphone users have difficulty engaging with it and often use only a
limited set of features like calling and messaging. These users are hesitant to
explore using the smartphone and rely on experienced users to teach them how to
use the phone. However, experienced users are not always around to guide them.
To help new users learn how to use the phone on their own, we propose a natural
language based instruction following agent that operates over the UI and shows
the user how to perform various tasks. Common how-to questions, such as "How to
block calls from unknown numbers?", are documented on support sites with a
sequence of steps in natural language describing what the user should do. We
parse these steps using Large Language Models (LLMs) and generate macros that
can be executed on-device when the user asks a query. To evaluate this agent,
we introduce UGIF-DataSet, a multi-lingual, multi-modal UI grounded dataset for
step-by-step task completion on the smartphone. It contains 523 natural
language instructions with paired sequences of multilingual UI screens and
actions that show how to execute the task in eight languages. We compare the
performance of different large language models including PaLM, GPT3, etc. and
find that the end-to-end task completion success rate is 48% for English UI but
the performance drops to 32% for non-English languages. We analyse the common
failure modes of existing models on this task and point out areas for
improvement.
- Abstract(参考訳): 新しいスマートフォンユーザーはそれに関わるのが難しく、電話やメッセージといった限られた機能しか使わないことが多い。
これらのユーザーは、スマートフォンを使い、経験豊富なユーザーにスマートフォンの使い方を教えることをためらっている。
しかし、経験豊富なユーザーがガイドするとは限らない。
そこで本研究では,ユーザ自身がスマートフォンの使い方を学習するために,UI上で操作する自然言語ベースの指示に従うエージェントを提案し,ユーザに対してさまざまなタスクの実行方法を示す。
未知数からの呼び出しをブロックする方法"のような一般的なハウツー質問は、ユーザが何をすべきかを自然言語で記述した一連のステップでサポートサイトに文書化されている。
これらのステップをLLM(Large Language Models)を用いて解析し、ユーザがクエリーを尋ねるとデバイス上で実行できるマクロを生成する。
このエージェントを評価するために,スマートフォン上でのステップバイステップタスク補完のための多言語マルチモーダルUI基盤データセットであるUDG-DataSetを紹介する。
8つの言語でタスクを実行する方法を示すアクションと多言語ui画面のペア配列を持つ523の自然言語命令を含んでいる。
PaLM, GPT3など, さまざまな大規模言語モデルの性能を比較し, エンドツーエンドのタスク完了成功率は, 英語UIでは48%だが, 非英語では32%に低下することがわかった。
このタスクで既存のモデルの一般的な障害モードを分析し、改善すべき領域を指摘します。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。