論文の概要: LXMERT Model Compression for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2310.15325v1
- Date: Mon, 23 Oct 2023 19:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:51:40.449535
- Title: LXMERT Model Compression for Visual Question Answering
- Title(参考訳): 視覚的質問応答のためのlxmertモデル圧縮
- Authors: Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh
Eetemadi
- Abstract要約: その結果,LXMERTを40%~60%の精度で効果的に刈り取ることができ,精度は3%低下した。
実験の結果,LXMERTは40%~60%の大きさで効果的に切断でき,精度は3%低下した。
- 参考スコア(独自算出の注目度): 0.03749861135832073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretrained models such as LXMERT are becoming popular for
learning cross-modal representations on text-image pairs for vision-language
tasks. According to the lottery ticket hypothesis, NLP and computer vision
models contain smaller subnetworks capable of being trained in isolation to
full performance. In this paper, we combine these observations to evaluate
whether such trainable subnetworks exist in LXMERT when fine-tuned on the VQA
task. In addition, we perform a model size cost-benefit analysis by
investigating how much pruning can be done without significant loss in
accuracy. Our experiment results demonstrate that LXMERT can be effectively
pruned by 40%-60% in size with 3% loss in accuracy.
- Abstract(参考訳): LXMERTのような大規模事前学習モデルは、視覚言語タスクのためのテキストイメージペア上でのクロスモーダル表現の学習に人気がある。
抽選券仮説によれば、nlpとコンピュータビジョンのモデルには、独立して訓練できる小さなサブネットワークが含まれている。
本稿では、これらの観測結果を組み合わせて、VQAタスクの微調整時にLXMERTにそのようなトレーニング可能なサブネットが存在するかどうかを評価する。
また,モデルサイズによるコスト便益分析を行い,精度の大幅な低下を伴わずに刈り取ることができるか検討した。
実験の結果,LXMERTは40%~60%の大きさで効果的に切断でき,精度は3%低下した。
関連論文リスト
- One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Quantifying lottery tickets under label noise: accuracy, calibration,
and complexity [6.232071870655069]
ディープニューラルネットワークのプルーニングは、機械学習の計算負担を軽減するために広く利用されている戦略である。
スパース二重降下法を用いて一意的に同定し,分類タスクに付随するプルーンドモデルを特徴付ける。
論文 参考訳(メタデータ) (2023-06-21T11:35:59Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z) - Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。
また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。
実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-07-22T03:35:27Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Playing Lottery Tickets with Vision and Language [62.6420670250559]
大規模トランスフォーマーによる事前学習は視覚言語(V+L)研究に革命をもたらした。
並行して、宝くじチケット仮説の研究は、ディープニューラルネットワークには、分離訓練時に高密度ネットワークよりも同等またはさらに優れたパフォーマンスを達成できる小さなマッチングワークが含まれていることを示しています。
テストベッドとして最高の性能を持つV+Lモデルの1つであるUNITERを使用し、実験のために7つの代表的なV+Lタスクを統合する。
論文 参考訳(メタデータ) (2021-04-23T22:24:33Z) - Seeing past words: Testing the cross-modal capabilities of pretrained
V&L models [18.73444918172383]
マルチモーダル統合を必要とする2つのタスクで推論を行う汎用プリトレーニングドビジョンと言語V&Lモデルの能力を検討する。
ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルについて検討した。
本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。
論文 参考訳(メタデータ) (2020-12-22T21:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。