論文の概要: PolyViT: Co-training Vision Transformers on Images, Videos and Audio
- arxiv url: http://arxiv.org/abs/2111.12993v1
- Date: Thu, 25 Nov 2021 10:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 15:20:15.121768
- Title: PolyViT: Co-training Vision Transformers on Images, Videos and Audio
- Title(参考訳): PolyViT:画像、ビデオ、オーディオで視覚変換器を訓練
- Authors: Valerii Likhosherstov, Anurag Arnab, Krzysztof Choromanski, Mario
Lucic, Yi Tay, Adrian Weller, Mostafa Dehghani
- Abstract要約: 我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。
1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。
共同学習はシンプルで実践的であることを示す。
- 参考スコア(独自算出の注目度): 80.0913507142036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we train a single transformer model capable of processing multiple
modalities and datasets, whilst sharing almost all of its learnable parameters?
We present PolyViT, a model trained on image, audio and video which answers
this question. By co-training different tasks on a single modality, we are able
to improve the accuracy of each individual task and achieve state-of-the-art
results on 5 standard video- and audio-classification datasets. Co-training
PolyViT on multiple modalities and tasks leads to a model that is even more
parameter-efficient, and learns representations that generalize across multiple
domains. Moreover, we show that co-training is simple and practical to
implement, as we do not need to tune hyperparameters for each combination of
datasets, but can simply adapt those from standard, single-task training.
- Abstract(参考訳): 学習可能なパラメータをほぼすべて共有しながら、複数のモダリティとデータセットを処理できる単一のトランスフォーマーモデルをトレーニングできるだろうか?
この疑問に答えるPolyViTは、画像、オーディオ、ビデオに基づいて訓練されたモデルである。
単一のモダリティで異なるタスクを共同トレーニングすることで、個々のタスクの精度を改善し、5つの標準ビデオおよびオーディオ分類データセットの最先端結果を達成することができる。
複数のモダリティとタスクでpolyvitを共訓練すると、さらにパラメータ効率のよいモデルとなり、複数のドメインにまたがる表現を学ぶ。
さらに、データセットの組み合わせごとにハイパーパラメータをチューニングする必要はなく、標準のシングルタスクトレーニングからそれを単純に適用できるため、コトレーニングはシンプルかつ実用的な実装であることを示す。
関連論文リスト
- 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。