論文の概要: Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks
with Unified Vision-and-Language BERTs
- arxiv url: http://arxiv.org/abs/2203.07828v1
- Date: Tue, 15 Mar 2022 12:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 23:50:42.890255
- Title: Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks
with Unified Vision-and-Language BERTs
- Title(参考訳): BERTはブラウザのユーザインタフェースを学習する?
統合視覚・言語BERTを用いたマルチステップタスクの探索
- Authors: Taichi Iki and Akiko Aizawa
- Abstract要約: 我々は,Webページで実装されたグラフィカルユーザインタフェースを複数のステップで操作することで,モデルがタスクを実行するフレームワークを開発する。
BERT拡張をこれらのタスクページと共同でトレーニングし、以下の結果を得た。
以上の結果から, BERTをGUIによるマルチステップタスクに微調整できること, 一般化性の向上の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 33.30962388481026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Transformers are good foundations for unified multi-task models
owing to their task-agnostic representation. Pre-trained Transformers are often
combined with text-to-text framework to execute multiple tasks by a single
model. Performing a task through a graphical user interface (GUI) is another
candidate to accommodate various tasks, including multi-step tasks with vision
and language inputs. However, few papers combine pre-trained Transformers with
performing through GUI. To fill this gap, we explore a framework in which a
model performs a task by manipulating the GUI implemented with web pages in
multiple steps. We develop task pages with and without page transitions and
propose a BERT extension for the framework. We jointly trained our BERT
extension with those task pages, and made the following observations. (1) The
model learned to use both task pages with and without page transition. (2) In
four out of five tasks without page transitions, the model performs greater
than 75% of the performance of the original BERT, which does not use browsers.
(3) The model did not generalize effectively on unseen tasks. These results
suggest that we can fine-tune BERTs to multi-step tasks through GUIs, and there
is room for improvement in their generalizability. Code will be available
online.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは、タスクに依存しない表現のため、統一されたマルチタスクモデルの基礎となる。
事前訓練されたトランスフォーマーは、テキストからテキストまでのフレームワークと組み合わせて、1つのモデルで複数のタスクを実行する。
グラフィカルユーザインタフェース(GUI)によるタスク実行は、視覚と言語入力を伴う多段階タスクを含む様々なタスクに対応する別の候補である。
しかし、事前訓練されたトランスフォーマーとguiによる実行を組み合わせる論文は少ない。
このギャップを埋めるために、モデルが複数のステップでWebページで実装されたGUIを操作することでタスクを実行するフレームワークを探索する。
本稿では,ページ遷移を伴わないタスクページを開発し,BERT拡張を提案する。
BERT拡張をこれらのタスクページと共同でトレーニングし、以下の結果を得た。
1) タスクページをページ遷移なしで使用することが学習された。
2) ページ遷移のない5つのタスクのうち4つにおいて、このモデルは、ブラウザを使用しないオリジナルのBERTの性能の75%以上を実行する。
(3) モデルは, 目に見えないタスクを効果的に一般化しなかった。
これらの結果から, BERTをGUIによるマルチステップタスクに微調整できること, 一般化性の向上の余地があることが示唆された。
コードはオンラインで入手できる。
関連論文リスト
- Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - AutoTaskFormer: Searching Vision Transformers for Multi-task Learning [35.38583552145653]
視覚変換器は、分類やセグメンテーションのような単一タスクにおいて優れた性能を示している。
既存のマルチタスク・ビジョン・トランスフォーマーは手作りであり、人間の専門知識に大きく依存している。
本稿では,このプロセスを自動化するために,AutoTaskFormerと呼ばれる新しいワンショットニューラルアーキテクチャ検索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-18T06:30:20Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文 参考訳(メタデータ) (2021-12-10T17:37:26Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。