論文の概要: VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling
- arxiv url: http://arxiv.org/abs/2112.05692v1
- Date: Fri, 10 Dec 2021 17:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 13:12:56.555137
- Title: VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling
- Title(参考訳): VUT:マルチモードマルチタスクユーザインタフェースモデリングのためのVersatile UI変換器
- Authors: Yang Li, Gang Li, Xin Zhou, Mostafa Dehghani, Alexey Gritsenko
- Abstract要約: VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
- 参考スコア(独自算出の注目度): 11.569380762858815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User interface modeling is inherently multimodal, which involves several
distinct types of data: images, structures and language. The tasks are also
diverse, including object detection, language generation and grounding. In this
paper, we present VUT, a Versatile UI Transformer that takes multimodal input
and simultaneously accomplishes 5 distinct tasks with the same model. Our model
consists of a multimodal Transformer encoder that jointly encodes UI images and
structures, and performs UI object detection when the UI structures are absent
in the input. Our model also consists of an auto-regressive Transformer model
that encodes the language input and decodes output, for both question-answering
and command grounding with respect to the UI. Our experiments show that for
most of the tasks, when trained jointly for multi-tasks, VUT substantially
reduces the number of models and footprints needed for performing multiple
tasks, while achieving accuracy exceeding or on par with baseline models
trained for each individual task.
- Abstract(参考訳): ユーザインターフェースモデリングは本質的にマルチモーダルであり、画像、構造、言語など、いくつかの異なるタイプのデータを含んでいる。
タスクは、オブジェクト検出、言語生成、グラウンド化など、多種多様である。
本稿では,マルチモーダル入力を受け取り,同じモデルで5つの異なるタスクを同時に達成する多用途uiトランスフォーマーであるvutを提案する。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
また,言語入力を符号化し,出力をデコードする自動回帰トランスフォーマモデルを用いて,UIに関する質問応答とコマンドグラウンドの両モデルを構築した。
実験の結果,複数タスクに対して共同でトレーニングを行う場合,VUTは複数のタスクの実行に必要なモデルやフットプリントの数を大幅に削減し,各タスクに対してトレーニングしたベースラインモデルと同等の精度を達成できた。
関連論文リスト
- DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion [81.7514869897233]
トレーニング不要なマルチモーダルLLMエージェント (MuLan) を人体画家として開発し, 段階的にマルチオブジェクトを生成する。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
MuLanはまた、視覚言語モデル(VLM)を採用して、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
論文 参考訳(メタデータ) (2024-02-20T06:14:30Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Task-Based MoE for Multitask Multilingual Machine Translation [58.20896429151824]
Mixture-of-experts (MoE)アーキテクチャは、多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。
本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共有により設計する。
論文 参考訳(メタデータ) (2023-08-30T05:41:29Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Transformer is All You Need: Multimodal Multitask Learning with a
Unified Transformer [24.870827400461682]
本稿では,異なる領域にまたがるタスクを同時に学習するUnified Transformerモデルを提案する。
トランスエンコーダデコーダアーキテクチャに基づいて、UniTモデルは各入力モダリティをエンコーダでエンコーダし、各タスクで予測を行います。
モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。
論文 参考訳(メタデータ) (2021-02-22T04:45:06Z) - DynE: Dynamic Ensemble Decoding for Multi-Document Summarization [5.197307534263253]
異なる入力に対して同一モデルの複数のインスタンスの出力をアンサンブルする単純な復号法を提案する。
我々は,複数の文書要約データセットの最先端結果を得る。
論文 参考訳(メタデータ) (2020-06-15T20:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。