Fugu-MT 論文翻訳(概要): Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers

論文の概要: Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers

arxiv url: http://arxiv.org/abs/2102.00529v1
Date: Sun, 31 Jan 2021 20:36:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 16:59:37.521868
Title: Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers
Title（参考訳）: マルチモーダル変圧器におけるデータ・注意・損失の役割の分離
Authors: Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, Aida Nematzadeh
Abstract要約: 学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。 6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
参考スコア（独自算出の注目度）: 20.343814813409537
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently multimodal transformer models have gained popularity because their performance on language and vision tasks suggest they learn rich visual-linguistic representations. Focusing on zero-shot image retrieval tasks, we study three important factors which can impact the quality of learned representations: pretraining data, the attention mechanism, and loss functions. By pretraining models on six datasets, we observe that dataset noise and language similarity to our downstream task are important indicators of model performance. Through architectural analysis, we learn that models with a multimodal attention mechanism can outperform deeper models with modality specific attention mechanisms. Finally, we show that successful contrastive losses used in the self-supervised learning literature do not yield similar performance gains when used in multimodal transformers
Abstract（参考訳）: 最近のマルチモーダルトランスフォーマーモデルは、言語と視覚タスクのパフォーマンスが、リッチな視覚言語表現を学ぶことを示唆しているため、人気を集めている。ゼロショット画像検索タスクに着目し,事前学習データ,注意機構,損失関数といった学習表現の質に影響を与える3つの重要な要因について検討した。 6つのデータセットでモデルを事前トレーニングすることで、データ集合のノイズとダウンストリームタスクとの言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。アーキテクチャ解析により,マルチモーダル・アテンション機構を持つモデルが,モダリティ特有のアテンション機構を持つ深いモデルよりも優れていることを知る。最後に, 自己指導型学習文献におけるコントラスト損失は, マルチモーダルトランスにおいて同様の性能向上をもたらさないことを示した。

関連論文リスト

Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文参考訳（メタデータ） (2024-06-25T10:56:03Z)
Towards In-Vehicle Multi-Task Facial Attribute Recognition: Investigating Synthetic Data and Vision Foundation Models [8.54530542456452]
車両の乗客の顔の特徴を認識する複雑なマルチタスクモデルを訓練するための合成データセットの有用性について検討する。我々の研究は直感に反する発見を明らかにし、特に特定のマルチタスクコンテキストにおいて、ViTよりもResNetの方が優れた性能を示した。
論文参考訳（メタデータ） (2024-03-10T04:17:54Z)
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)
Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文参考訳（メタデータ） (2022-09-26T01:30:43Z)
Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文参考訳（メタデータ） (2021-12-08T10:39:13Z)
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。 VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文参考訳（メタデータ） (2020-05-15T01:06:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。