論文の概要: Musketeer (All for One, and One for All): A Generalist Vision-Language
Model with Task Explanation Prompts
- arxiv url: http://arxiv.org/abs/2305.07019v1
- Date: Thu, 11 May 2023 17:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:35:49.219643
- Title: Musketeer (All for One, and One for All): A Generalist Vision-Language
Model with Task Explanation Prompts
- Title(参考訳): Musketeer (All for One, and One for All): タスク説明プロンプトを備えた一般視覚言語モデル
- Authors: Zhaoyang Zhang, Yantao Shen, Kunyu Shi, Zhaowei Cai, Jun Fang, Siqi
Deng, Hao Yang, Davide Modolo, Zhuowen Tu, Stefano Soatto
- Abstract要約: 本稿では,全てのタスク(すべて1つ)でパラメータを共同で訓練し,複数のタスク(すべて1つ)で完全に共有するシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
不均一なタスク間の知識の統合は、タスク説明プロンプト(TEP)と呼ばれる新しい機能によって実現される
- 参考スコア(独自算出の注目度): 90.30844132765706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a sequence-to-sequence vision-language model whose parameters are
jointly trained on all tasks (all for one) and fully shared among multiple
tasks (one for all), resulting in a single model which we named Musketeer. The
integration of knowledge across heterogeneous tasks is enabled by a novel
feature called Task Explanation Prompt (TEP). TEP reduces interference among
tasks, allowing the model to focus on their shared structure. With a single
model, Musketeer achieves results comparable to or better than strong baselines
trained on single tasks, almost uniformly across multiple tasks.
- Abstract(参考訳): 我々は,全てのタスク(すべて1つ)でパラメータを共同で訓練し,複数のタスク(すべて1つ)で完全に共有するシーケンス・ツー・シーケンスの視覚言語モデルを提案する。
不均一なタスクにまたがる知識の統合は、タスク説明プロンプト(TEP)と呼ばれる新しい機能によって実現される。
TEPはタスク間の干渉を減らし、モデルが共有構造に集中できるようにする。
ひとつのモデルでmusketeerは、単一のタスクでトレーニングされた強力なベースラインと同等あるいはそれ以上の結果を達成します。
関連論文リスト
- Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - UniverSLU: Universal Spoken Language Understanding for Diverse
Classification and Sequence Generation Tasks with a Single Network [57.94075999363722]
我々は様々な音声言語理解タスクを共同で行うモデルを構築した。
個別のプロンプトとして様々なタスクやデータセットの仕様化を行う。
その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Exploring Multitask Learning for Low-Resource AbstractiveSummarization [0.5801044612920816]
多くのタスクの組み合わせに対して、マルチタスク設定で訓練されたモデルが抽象的な要約のために訓練されたモデルより優れていることを示す。
また、あるタスクは他のタスクと組み合わせるだけでなく、異なるアーキテクチャやトレーニングコーパスを使用する場合にも、抽象的な要約に一貫した利益が得られます。
論文 参考訳(メタデータ) (2021-09-17T14:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。