論文の概要: Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers
- arxiv url: http://arxiv.org/abs/2102.00529v1
- Date: Sun, 31 Jan 2021 20:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:59:37.521868
- Title: Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers
- Title(参考訳): マルチモーダル変圧器におけるデータ・注意・損失の役割の分離
- Authors: Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste
Alayrac, Aida Nematzadeh
- Abstract要約: 学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。
6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
- 参考スコア(独自算出の注目度): 20.343814813409537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently multimodal transformer models have gained popularity because their
performance on language and vision tasks suggest they learn rich
visual-linguistic representations. Focusing on zero-shot image retrieval tasks,
we study three important factors which can impact the quality of learned
representations: pretraining data, the attention mechanism, and loss functions.
By pretraining models on six datasets, we observe that dataset noise and
language similarity to our downstream task are important indicators of model
performance. Through architectural analysis, we learn that models with a
multimodal attention mechanism can outperform deeper models with modality
specific attention mechanisms. Finally, we show that successful contrastive
losses used in the self-supervised learning literature do not yield similar
performance gains when used in multimodal transformers
- Abstract(参考訳): 最近のマルチモーダルトランスフォーマーモデルは、言語と視覚タスクのパフォーマンスが、リッチな視覚言語表現を学ぶことを示唆しているため、人気を集めている。
ゼロショット画像検索タスクに着目し,事前学習データ,注意機構,損失関数といった学習表現の質に影響を与える3つの重要な要因について検討した。
6つのデータセットでモデルを事前トレーニングすることで、データ集合のノイズとダウンストリームタスクとの言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
アーキテクチャ解析により,マルチモーダル・アテンション機構を持つモデルが,モダリティ特有のアテンション機構を持つ深いモデルよりも優れていることを知る。
最後に, 自己指導型学習文献におけるコントラスト損失は, マルチモーダルトランスにおいて同様の性能向上をもたらさないことを示した。
関連論文リスト
- Towards In-Vehicle Multi-Task Facial Attribute Recognition:
Investigating Synthetic Data and Vision Foundation Models [8.54530542456452]
車両の乗客の顔の特徴を認識する複雑なマルチタスクモデルを訓練するための合成データセットの有用性について検討する。
我々の研究は直感に反する発見を明らかにし、特に特定のマルチタスクコンテキストにおいて、ViTよりもResNetの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-10T04:17:54Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z) - Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。
本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。
敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2020-07-01T09:06:20Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。