論文の概要: A Closer Look at the Robustness of Vision-and-Language Pre-trained
Models
- arxiv url: http://arxiv.org/abs/2012.08673v2
- Date: Tue, 30 Mar 2021 23:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 06:43:54.798950
- Title: A Closer Look at the Robustness of Vision-and-Language Pre-trained
Models
- Title(参考訳): 視覚・言語事前学習モデルのロバスト性について
- Authors: Linjie Li, Zhe Gan, Jingjing Liu
- Abstract要約: ViLBERTやUNITERのような大規模事前学習型マルチモーダルトランスフォーマーは、視覚言語(V+L)研究の最先端を新たなレベルへと押し上げた。
標準的なタスクで優れたパフォーマンスを達成することはできるが、これらの事前訓練されたモデルがどれほど堅牢かはいまだに不明である。
我々は,組込み空間におけるマルチモーダル適応雑音生成器を学習し,事前学習したV+Lモデルを騙す汎用的で効率的な手法であるMangoを提案する。
- 参考スコア(独自算出の注目度): 42.13369297087191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER,
have propelled the state of the art in vision-and-language (V+L) research to a
new level. Although achieving impressive performance on standard tasks, to
date, it still remains unclear how robust these pre-trained models are. To
investigate, we conduct a host of thorough evaluations on existing pre-trained
models over 4 different types of V+L specific model robustness: (i) Linguistic
Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv)
Answer Distribution Shift. Interestingly, by standard model finetuning,
pre-trained V+L models already exhibit better robustness than many
task-specific state-of-the-art methods. To further enhance model robustness, we
propose Mango, a generic and efficient approach that learns a Multimodal
Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L
models. Differing from previous studies focused on one specific type of
robustness, Mango is task-agnostic, and enables universal performance lift for
pre-trained models over diverse tasks designed to evaluate broad aspects of
robustness. Comprehensive experiments demonstrate that Mango achieves new state
of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by
a significant margin. As the first comprehensive study on V+L robustness, this
work puts robustness of pre-trained models into sharper focus, pointing new
directions for future study.
- Abstract(参考訳): ViLBERTやUNITERのような大規模事前学習型マルチモーダルトランスフォーマーは、視覚言語(V+L)研究の最先端を新たなレベルへと押し上げた。
標準的なタスクで素晴らしいパフォーマンスを達成することはできるが、これらの事前訓練されたモデルがどれほど堅牢かはいまだに不明だ。
本研究では,既存のv+l仕様モデルについて,(i)言語的変動,(ii)論理的推論,(iii)視覚コンテンツ操作,(iv)回答分布シフトの4種類以上の徹底的な評価を行う。
興味深いことに、標準モデルの微調整により、事前訓練されたv+lモデルは、多くのタスク固有の最先端メソッドよりも堅牢性が向上している。
モデルロバスト性をさらに高めるために,マルチモーダル適応雑音生成器を組込み空間で学習し,事前学習したV+Lモデルを騙す汎用的で効率的な手法であるMangoを提案する。
特定のタイプのロバスト性に注目した以前の研究とは異なり、mangoはタスク非依存であり、ロバスト性の幅広い側面を評価するために設計された多種多様なタスクよりも、事前訓練されたモデルの普遍的なパフォーマンス向上を可能にする。
総合的な実験によると、Mangoは9つの堅牢性ベンチマークのうち7つで、既存の手法をかなり上回っている。
V+Lのロバスト性に関する最初の包括的な研究として、この研究は事前訓練されたモデルのロバスト性をより鋭い焦点に置き、将来の研究の新たな方向性を示す。
関連論文リスト
- Partially Recentralization Softmax Loss for Vision-Language Models Robustness [8.78222772167501]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。
実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2024-02-06T01:44:38Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。