Fugu-MT 論文翻訳(概要): HelpViz: Automatic Generation of Contextual Visual MobileTutorials from Text-Based Instructions

論文の概要: HelpViz: Automatic Generation of Contextual Visual MobileTutorials from Text-Based Instructions

arxiv url: http://arxiv.org/abs/2108.03356v1
Date: Sat, 7 Aug 2021 03:15:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-12 04:01:23.610144
Title: HelpViz: Automatic Generation of Contextual Visual MobileTutorials from Text-Based Instructions
Title（参考訳）: HelpViz: テキストベースのインストラクションからコンテキストビジュアルモバイルチュートリアルの自動生成
Authors: Mingyuan Zhong, Gang Li, Peggy Chi, Yang Li
Abstract要約: 本稿では,Web上に豊富に存在するテキストベースの命令から,文脈的視覚的モバイルチュートリアルを生成するツールであるHelpVizを紹介する。 HelpVizは、各テキスト命令から命令解析モデルを通じて一連のアクションを抽出することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。
参考スコア（独自算出の注目度）: 7.004973531150797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present HelpViz, a tool for generating contextual visual mobile tutorials from text-based instructions that are abundant on the web. HelpViz transforms text instructions to graphical tutorials in batch, by extracting a sequence of actions from each text instruction through an instruction parsing model, and executing the extracted actions on a simulation infrastructure that manages an array of Android emulators. The automatic execution of each instruction produces a set of graphical and structural assets, including images, videos, and metadata such as clicked elements for each step. HelpViz then synthesizes a tutorial by combining parsed text instructions with the generated assets, and contextualizes the tutorial to user interaction by tracking the user's progress and highlighting the next step. Our experiments with HelpViz indicate that our pipeline improved tutorial execution robustness and that participants preferred tutorials generated by HelpViz over text-based instructions. HelpViz promises a cost-effective approach for generating contextual visual tutorials for mobile interaction at scale.
Abstract（参考訳）: 我々は,web上に豊富なテキストに基づく説明文からコンテキストの視覚的なチュートリアルを生成するツールである helpviz を提案する。 HelpVizは、命令解析モデルを通じて各テキスト命令から一連のアクションを抽出し、Androidエミュレータの配列を管理するシミュレーションインフラストラクチャ上で抽出されたアクションを実行することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。 helpvizは、構文解析されたテキスト命令と生成されたアセットを組み合わせることでチュートリアルを合成し、ユーザの進捗を追跡し、次のステップをハイライトすることで、ユーザインタラクションへのチュートリアルをコンテキスト化する。 helpvizによる実験では,チュートリアル実行の堅牢性が向上し,参加者はテキストベースの命令よりも helpviz が生成したチュートリアルを好んだ。 HelpVizは、大規模なモバイルインタラクションのためのコンテキストビジュアルチュートリアルを生成するためのコスト効率のよいアプローチを約束する。

関連論文リスト

Composable Prompting Workspaces for Creative Writing: Exploration and Iteration Using Dynamic Widgets [25.41215417987532]
動的ウィジェットを用いたテキスト探索のためのコンポーザブルプロンプトキャンバスを提案する。ユーザーはシステム提案、プロンプト、手動でタスク関連ファセットをキャプチャすることでウィジェットを生成する。われわれのデザインはCreative Support Indexのベースラインを大きく上回った。
論文参考訳（メタデータ） (2025-03-27T11:36:47Z)
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文参考訳（メタデータ） (2024-09-23T17:59:46Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文参考訳（メタデータ） (2024-06-25T17:59:41Z)
Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文参考訳（メタデータ） (2024-06-06T17:59:44Z)
Text-driven Affordance Learning from Egocentric Vision [6.699930460835963]
ロボットのためのテキスト駆動型アベイランス学習手法を提案する。我々は,テキストの指示に従って,自我中心の視点から接触点を学習し,軌道を操作することを目的としている。われわれのアプローチは、現実のシナリオにおける空き学習の新しい標準として、複数の空き時間を扱う。
論文参考訳（メタデータ） (2024-04-03T07:23:03Z)
Answer is All You Need: Instruction-following Text Embedding via Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文参考訳（メタデータ） (2024-02-15T01:02:41Z)
Unsupervised Learning of Graph from Recipes [8.410402833223364]
本稿では,レシピから関連する情報を識別し,レシピ中のアクションのシーケンスを表すグラフを生成するモデルを提案する。テキストを1つのシーケンスで符号化する$mathsfGNN$のグラフ構造とパラメータを反復的に学習する。同定されたエンティティを注釈付きデータセットと比較し、入力テキストと出力テキストの差を比較し、生成したグラフとアートメソッドの状態から生成されたグラフを比較して、アプローチを評価する。
論文参考訳（メタデータ） (2024-01-22T16:25:47Z)
SPROUT: an Interactive Authoring Tool for Generating Programming Tutorials with the Visualization of Large Language Models [19.885485760758783]
大規模言語モデル(LLM)の急速な開発は、プログラミングチュートリアルの作成効率に革命をもたらした。プログラミングチュートリアル作成タスクを実行可能なステップに分解する,新しいアプローチを導入する。次に,SPROUTを提案する。SPROUTは,プログラミングチュートリアル作成プロセスのより深い制御と理解を可能にする,インタラクティブな可視化機能を備えたオーサリングツールである。
論文参考訳（メタデータ） (2023-12-04T10:46:52Z)
InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation [59.24938416319019]
InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
論文参考訳（メタデータ） (2023-11-30T18:59:51Z)
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文参考訳（メタデータ） (2023-11-28T17:57:44Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。