論文の概要: UGIF: UI Grounded Instruction Following
- arxiv url: http://arxiv.org/abs/2211.07615v2
- Date: Tue, 23 May 2023 16:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 01:02:25.498738
- Title: UGIF: UI Grounded Instruction Following
- Title(参考訳): UGIF:UIの接地命令に続くもの
- Authors: Sagar Gubbi Venkatesh, Partha Talukdar, Srini Narayanan
- Abstract要約: スマートフォンユーザーは、共通のタスクを実行するためにメニューをナビゲートすることが難しいことが多い。
現在、ステップバイステップのインストラクションを持つヘルプドキュメントは、ユーザを助けるために手作業で書かれています。
UGIF-DataSetは,スマートフォン上でステップバイステップのタスク完了を実現するための,多言語でマルチモーダルなUI基盤データセットである。
- 参考スコア(独自算出の注目度): 2.9649783577150837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smartphone users often find it difficult to navigate myriad menus to perform
common tasks such as "How to block calls from unknown numbers?". Currently,
help documents with step-by-step instructions are manually written to aid the
user. The user experience can be further enhanced by grounding the instructions
in the help document to the UI and overlaying a tutorial on the phone UI. To
build such tutorials, several natural language processing components including
retrieval, parsing, and grounding are necessary, but there isn't any relevant
dataset for such a task. Thus, we introduce UGIF-DataSet, a multi-lingual,
multi-modal UI grounded dataset for step-by-step task completion on the
smartphone containing 4,184 tasks across 8 languages. As an initial approach to
this problem, we propose retrieving the relevant instruction steps based on the
user's query and parsing the steps using Large Language Models (LLMs) to
generate macros that can be executed on-device. The instruction steps are often
available only in English, so the challenge includes cross-modal, cross-lingual
retrieval of English how-to pages from user queries in many languages and
mapping English instruction steps to UI in a potentially different language. We
compare the performance of different LLMs including PaLM and GPT-3 and find
that the end-to-end task completion rate is 48% for English UI but the
performance drops to 32% for other languages. We analyze the common failure
modes of existing models on this task and point out areas for improvement.
- Abstract(参考訳): スマートフォンユーザーは「未知の番号からの呼び出しをブロックする方法?」のような一般的なタスクを実行するために、無数のメニューをナビゲートすることが難しいことが多い。
現在、ステップバイステップのヘルプドキュメントはユーザを支援するために手作業で書かれています。
ヘルプドキュメントの指示をuiに接地し、電話uiにチュートリアルをオーバーレイすることで、ユーザエクスペリエンスをさらに強化することができる。
このようなチュートリアルを構築するには、検索、パース、グラウンドなどいくつかの自然言語処理コンポーネントが必要ですが、そのようなタスクに関連するデータセットはありません。
そこで,UGIF-DataSetは,8言語にまたがる4,184タスクを含むスマートフォン上のステップバイステップタスク補完のための,多言語でマルチモーダルなUI基盤データセットである。
この問題に対する最初のアプローチとして,ユーザのクエリに基づく関連する命令ステップの検索と,デバイス上で実行可能なマクロを生成するための大規模言語モデル(llms)を用いた構文解析を提案する。
命令手順は英語でのみ利用可能であるため、多くの言語のユーザクエリから英語のハウツーページをクロスモーダルで言語横断的に検索し、英語の命令ステップを潜在的に異なる言語のUIにマッピングするといった課題がある。
PaLM や GPT-3 など様々な LLM の性能を比較し,エンドツーエンドのタスク完了率は英語 UI では 48% であるが,他の言語では 32% に低下することがわかった。
既存のモデルの一般的な障害モードをこのタスクで解析し、改善すべき領域を指摘する。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。