論文の概要: HelpViz: Automatic Generation of Contextual Visual MobileTutorials from
Text-Based Instructions
- arxiv url: http://arxiv.org/abs/2108.03356v1
- Date: Sat, 7 Aug 2021 03:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 04:01:23.610144
- Title: HelpViz: Automatic Generation of Contextual Visual MobileTutorials from
Text-Based Instructions
- Title(参考訳): HelpViz: テキストベースのインストラクションからコンテキストビジュアルモバイルチュートリアルの自動生成
- Authors: Mingyuan Zhong, Gang Li, Peggy Chi, Yang Li
- Abstract要約: 本稿では,Web上に豊富に存在するテキストベースの命令から,文脈的視覚的モバイルチュートリアルを生成するツールであるHelpVizを紹介する。
HelpVizは、各テキスト命令から命令解析モデルを通じて一連のアクションを抽出することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。
各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。
- 参考スコア(独自算出の注目度): 7.004973531150797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HelpViz, a tool for generating contextual visual mobile tutorials
from text-based instructions that are abundant on the web. HelpViz transforms
text instructions to graphical tutorials in batch, by extracting a sequence of
actions from each text instruction through an instruction parsing model, and
executing the extracted actions on a simulation infrastructure that manages an
array of Android emulators. The automatic execution of each instruction
produces a set of graphical and structural assets, including images, videos,
and metadata such as clicked elements for each step. HelpViz then synthesizes a
tutorial by combining parsed text instructions with the generated assets, and
contextualizes the tutorial to user interaction by tracking the user's progress
and highlighting the next step.
Our experiments with HelpViz indicate that our pipeline improved tutorial
execution robustness and that participants preferred tutorials generated by
HelpViz over text-based instructions. HelpViz promises a cost-effective
approach for generating contextual visual tutorials for mobile interaction at
scale.
- Abstract(参考訳): 我々は,web上に豊富なテキストに基づく説明文からコンテキストの視覚的なチュートリアルを生成するツールである helpviz を提案する。
HelpVizは、命令解析モデルを通じて各テキスト命令から一連のアクションを抽出し、Androidエミュレータの配列を管理するシミュレーションインフラストラクチャ上で抽出されたアクションを実行することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。
各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。
helpvizは、構文解析されたテキスト命令と生成されたアセットを組み合わせることでチュートリアルを合成し、ユーザの進捗を追跡し、次のステップをハイライトすることで、ユーザインタラクションへのチュートリアルをコンテキスト化する。
helpvizによる実験では,チュートリアル実行の堅牢性が向上し,参加者はテキストベースの命令よりも helpviz が生成したチュートリアルを好んだ。
HelpVizは、大規模なモバイルインタラクションのためのコンテキストビジュアルチュートリアルを生成するためのコスト効率のよいアプローチを約束する。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。
本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。
実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文 参考訳(メタデータ) (2024-06-06T17:59:44Z) - Text-driven Affordance Learning from Egocentric Vision [6.699930460835963]
ロボットのためのテキスト駆動型アベイランス学習手法を提案する。
我々は,テキストの指示に従って,自我中心の視点から接触点を学習し,軌道を操作することを目的としている。
われわれのアプローチは、現実のシナリオにおける空き学習の新しい標準として、複数の空き時間を扱う。
論文 参考訳(メタデータ) (2024-04-03T07:23:03Z) - Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - Unsupervised Learning of Graph from Recipes [8.410402833223364]
本稿では,レシピから関連する情報を識別し,レシピ中のアクションのシーケンスを表すグラフを生成するモデルを提案する。
テキストを1つのシーケンスで符号化する$mathsfGNN$のグラフ構造とパラメータを反復的に学習する。
同定されたエンティティを注釈付きデータセットと比較し、入力テキストと出力テキストの差を比較し、生成したグラフとアートメソッドの状態から生成されたグラフを比較して、アプローチを評価する。
論文 参考訳(メタデータ) (2024-01-22T16:25:47Z) - SPROUT: an Interactive Authoring Tool for Generating Programming Tutorials with the Visualization of Large Language Models [19.885485760758783]
大規模言語モデル(LLM)の急速な開発は、プログラミングチュートリアルの作成効率に革命をもたらした。
プログラミングチュートリアル作成タスクを実行可能なステップに分解する,新しいアプローチを導入する。
次に,SPROUTを提案する。SPROUTは,プログラミングチュートリアル作成プロセスのより深い制御と理解を可能にする,インタラクティブな可視化機能を備えたオーサリングツールである。
論文 参考訳(メタデータ) (2023-12-04T10:46:52Z) - InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation [59.24938416319019]
InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。
柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
論文 参考訳(メタデータ) (2023-11-30T18:59:51Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。