論文の概要: HelpViz: Automatic Generation of Contextual Visual MobileTutorials from
Text-Based Instructions
- arxiv url: http://arxiv.org/abs/2108.03356v1
- Date: Sat, 7 Aug 2021 03:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 04:01:23.610144
- Title: HelpViz: Automatic Generation of Contextual Visual MobileTutorials from
Text-Based Instructions
- Title(参考訳): HelpViz: テキストベースのインストラクションからコンテキストビジュアルモバイルチュートリアルの自動生成
- Authors: Mingyuan Zhong, Gang Li, Peggy Chi, Yang Li
- Abstract要約: 本稿では,Web上に豊富に存在するテキストベースの命令から,文脈的視覚的モバイルチュートリアルを生成するツールであるHelpVizを紹介する。
HelpVizは、各テキスト命令から命令解析モデルを通じて一連のアクションを抽出することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。
各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。
- 参考スコア(独自算出の注目度): 7.004973531150797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HelpViz, a tool for generating contextual visual mobile tutorials
from text-based instructions that are abundant on the web. HelpViz transforms
text instructions to graphical tutorials in batch, by extracting a sequence of
actions from each text instruction through an instruction parsing model, and
executing the extracted actions on a simulation infrastructure that manages an
array of Android emulators. The automatic execution of each instruction
produces a set of graphical and structural assets, including images, videos,
and metadata such as clicked elements for each step. HelpViz then synthesizes a
tutorial by combining parsed text instructions with the generated assets, and
contextualizes the tutorial to user interaction by tracking the user's progress
and highlighting the next step.
Our experiments with HelpViz indicate that our pipeline improved tutorial
execution robustness and that participants preferred tutorials generated by
HelpViz over text-based instructions. HelpViz promises a cost-effective
approach for generating contextual visual tutorials for mobile interaction at
scale.
- Abstract(参考訳): 我々は,web上に豊富なテキストに基づく説明文からコンテキストの視覚的なチュートリアルを生成するツールである helpviz を提案する。
HelpVizは、命令解析モデルを通じて各テキスト命令から一連のアクションを抽出し、Androidエミュレータの配列を管理するシミュレーションインフラストラクチャ上で抽出されたアクションを実行することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。
各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。
helpvizは、構文解析されたテキスト命令と生成されたアセットを組み合わせることでチュートリアルを合成し、ユーザの進捗を追跡し、次のステップをハイライトすることで、ユーザインタラクションへのチュートリアルをコンテキスト化する。
helpvizによる実験では,チュートリアル実行の堅牢性が向上し,参加者はテキストベースの命令よりも helpviz が生成したチュートリアルを好んだ。
HelpVizは、大規模なモバイルインタラクションのためのコンテキストビジュアルチュートリアルを生成するためのコスト効率のよいアプローチを約束する。
関連論文リスト
- Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - Unsupervised Learning of Graph from Recipes [8.410402833223364]
本稿では,レシピから関連する情報を識別し,レシピ中のアクションのシーケンスを表すグラフを生成するモデルを提案する。
テキストを1つのシーケンスで符号化する$mathsfGNN$のグラフ構造とパラメータを反復的に学習する。
同定されたエンティティを注釈付きデータセットと比較し、入力テキストと出力テキストの差を比較し、生成したグラフとアートメソッドの状態から生成されたグラフを比較して、アプローチを評価する。
論文 参考訳(メタデータ) (2024-01-22T16:25:47Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - SPROUT: Authoring Programming Tutorials with Interactive Visualization
of Large Language Model Generation Process [19.885485760758783]
大規模言語モデル(LLM)の急速な開発は、プログラミングチュートリアルの作成効率に革命をもたらした。
プログラミングチュートリアル作成タスクを実行可能なステップに分解する,新しいアプローチを導入する。
次に,SPROUTを提案する。SPROUTは,プログラミングチュートリアル作成プロセスのより深い制御と理解を可能にする,インタラクティブな可視化機能を備えたオーサリングツールである。
論文 参考訳(メタデータ) (2023-12-04T10:46:52Z) - InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation [59.24938416319019]
InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。
柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
論文 参考訳(メタデータ) (2023-11-30T18:59:51Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [63.57467950456686]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Mapping Natural Language Instructions to Mobile UI Action Sequences [17.393816815196974]
我々は,モバイルユーザインタフェースアクションに対する自然言語命令の接地という,新しい問題を提示した。
PIXELHELPは、英語の命令と、モバイルUIエミュレータ上で人によって実行されるアクションをペアリングするコーパスである。
トレーニングの規模を拡大するために、(a)ハウツー命令に記入するアクションフレーズと(b)モバイルユーザインタフェースのアクションの基底記述を合成することにより、言語とアクションデータを分離する。
論文 参考訳(メタデータ) (2020-05-07T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。