論文の概要: Playing Lottery Tickets with Vision and Language
- arxiv url: http://arxiv.org/abs/2104.11832v1
- Date: Fri, 23 Apr 2021 22:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 05:41:07.061703
- Title: Playing Lottery Tickets with Vision and Language
- Title(参考訳): 視覚と言語で宝くじをプレイする
- Authors: Zhe Gan, Yen-Chun Chen, Linjie Li, Tianlong Chen, Yu Cheng, Shuohang
Wang, Jingjing Liu
- Abstract要約: 大規模トランスフォーマーによる事前学習は視覚言語(V+L)研究に革命をもたらした。
並行して、宝くじチケット仮説の研究は、ディープニューラルネットワークには、分離訓練時に高密度ネットワークよりも同等またはさらに優れたパフォーマンスを達成できる小さなマッチングワークが含まれていることを示しています。
テストベッドとして最高の性能を持つV+Lモデルの1つであるUNITERを使用し、実験のために7つの代表的なV+Lタスクを統合する。
- 参考スコア(独自算出の注目度): 62.6420670250559
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large-scale transformer-based pre-training has recently revolutionized
vision-and-language (V+L) research. Models such as LXMERT, ViLBERT and UNITER
have significantly lifted the state of the art over a wide range of V+L tasks.
However, the large number of parameters in such models hinders their
application in practice. In parallel, work on the lottery ticket hypothesis has
shown that deep neural networks contain small matching subnetworks that can
achieve on par or even better performance than the dense networks when trained
in isolation. In this work, we perform the first empirical study to assess
whether such trainable subnetworks also exist in pre-trained V+L models. We use
UNITER, one of the best-performing V+L models, as the testbed, and consolidate
7 representative V+L tasks for experiments, including visual question
answering, visual commonsense reasoning, visual entailment, referring
expression comprehension, image-text retrieval, GQA, and NLVR$^2$. Through
comprehensive analysis, we summarize our main findings as follows. ($i$) It is
difficult to find subnetworks (i.e., the tickets) that strictly match the
performance of the full UNITER model. However, it is encouraging to confirm
that we can find "relaxed" winning tickets at 50%-70% sparsity that maintain
99% of the full accuracy. ($ii$) Subnetworks found by task-specific pruning
transfer reasonably well to the other tasks, while those found on the
pre-training tasks at 60%/70% sparsity transfer universally, matching 98%/96%
of the full accuracy on average over all the tasks. ($iii$) Adversarial
training can be further used to enhance the performance of the found lottery
tickets.
- Abstract(参考訳): 大規模トランスフォーマーによる事前学習は近年、視覚言語(V+L)研究に革命をもたらした。
LXMERT、ViLBERT、UNITERといったモデルは、幅広いV+Lタスクで芸術の状態を著しく引き上げている。
しかし、そのようなモデルの多くのパラメータは、実際に応用を妨げている。
並行して、宝くじの仮説の研究により、ディープニューラルネットワークには、個別にトレーニングされた場合の高密度ネットワークよりも同等またはそれ以上のパフォーマンスを達成できる小さなマッチングサブネットが含まれていることが示されている。
本研究では,訓練済みのV+Lモデルにもそのようなトレーニング可能なサブネットが存在するかどうかを評価するための最初の実証的研究を行う。
テストベッドとして最も優れたV+Lモデルの一つであるUNITERを使用し、視覚的質問応答、視覚的コモンセンス推論、視覚的包含、参照表現理解、画像テキスト検索、GQA、NLVR$^2$を含む7つの代表的なV+Lタスクを統合する。
総合的な分析を通して,本研究の主な成果は以下の通りである。
(i$) 完全なNITERモデルの性能と厳密に一致するサブネットワーク(チケット)を見つけることは困難である。
しかし、完全精度の99%を維持できる50%~70%のスパルシティーで「相対的な」当選チケットを見出すことは奨励されている。
タスク固有のプルーニング転送によって見つかったサブネットワーク($ii$)は、他のタスクにかなり適していますが、事前トレーニングされたタスクでは60%/70%のスパルシティ転送が普遍的に行われ、すべてのタスクで平均98%/96%の精度で一致しています。
反対のトレーニング(iii$)は、見つかった宝くじのパフォーマンスを高めるために利用することができる。
関連論文リスト
- LXMERT Model Compression for Visual Question Answering [0.03749861135832073]
その結果,LXMERTを40%~60%の精度で効果的に刈り取ることができ,精度は3%低下した。
実験の結果,LXMERTは40%~60%の大きさで効果的に切断でき,精度は3%低下した。
論文 参考訳(メタデータ) (2023-10-23T19:46:41Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Data-Efficient Double-Win Lottery Tickets from Robust Pre-training [129.85939347733387]
本稿では,事前学習したモデルからのサブネットワークを,様々な下流タスクで独立に転送できるDouble-Win Lottery Ticketsを紹介する。
頑健な事前訓練は、標準的なものよりも優れたパフォーマンスで、スペーサーのダブルウィン・宝くじを製作する傾向にある。
論文 参考訳(メタデータ) (2022-06-09T20:52:50Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文 参考訳(メタデータ) (2021-11-21T07:22:44Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - The Lottery Ticket Hypothesis for Object Recognition [39.186511997089575]
Lottery Ticket Hypothesisは、大規模なデータセットで訓練されたディープネットワークには、高密度ネットワークと同等のパフォーマンスを実現する小さなニューラルネットワークが含まれていると述べている。
性能低下を招くことなく、異なるサブタスクに対して最大80%の間隔で宝くじを探す方法に関するガイダンスを提供する。
論文 参考訳(メタデータ) (2020-12-08T18:59:13Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。