論文の概要: Are we pretraining it right? Digging deeper into visio-linguistic
pretraining
- arxiv url: http://arxiv.org/abs/2004.08744v1
- Date: Sun, 19 Apr 2020 01:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 23:57:19.182746
- Title: Are we pretraining it right? Digging deeper into visio-linguistic
pretraining
- Title(参考訳): 私たちはそれを事前訓練していますか?
visio-linguistic pretrainingへの深い掘り下げ
- Authors: Amanpreet Singh, Vedanuj Goswami, Devi Parikh
- Abstract要約: 事前学習データセットドメイン(テキストとビジュアル)と下流ドメインの類似性がパフォーマンスに与える影響について検討する。
意外なことに、下流タスクに近い領域で自動生成されるデータは、"自然な"データよりも事前学習に適している。
これは、最近の多くの取り組みにもかかわらず、ビジョンと言語の事前訓練がまだ“最初から”機能していないことを示唆している。
- 参考スコア(独自算出の注目度): 61.80511482405592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous recent works have proposed pretraining generic visio-linguistic
representations and then finetuning them for downstream vision and language
tasks. While architecture and objective function design choices have received
attention, the choice of pretraining datasets has received little attention. In
this work, we question some of the default choices made in literature. For
instance, we systematically study how varying similarity between the
pretraining dataset domain (textual and visual) and the downstream domain
affects performance. Surprisingly, we show that automatically generated data in
a domain closer to the downstream task (e.g., VQA v2) is a better choice for
pretraining than "natural" data but of a slightly different domain (e.g.,
Conceptual Captions). On the other hand, some seemingly reasonable choices of
pretraining datasets were found to be entirely ineffective for some downstream
tasks. This suggests that despite the numerous recent efforts, vision &
language pretraining does not quite work "out of the box" yet. Overall, as a
by-product of our study, we find that simple design choices in pretraining can
help us achieve close to state-of-art results on downstream tasks without any
architectural changes.
- Abstract(参考訳): 最近の多くの研究で、一般的な視覚言語表現を事前訓練し、下流の視覚や言語タスクのために微調整することが提案されている。
アーキテクチャと客観的関数設計の選択は注目されているが、事前トレーニングデータセットの選択はほとんど注目されていない。
本研究では,文献におけるデフォルト選択のいくつかを問う。
例えば、事前学習データセットドメイン(テキストとビジュアル)と下流ドメインの類似性がパフォーマンスにどのように影響するかを体系的に研究する。
驚くべきことに、下流タスク(例えばVQA v2)に近いドメインで自動生成されたデータは、"自然な"データではなく、少し異なるドメイン(例えば概念的キャプション)の事前トレーニングに適していることが示されます。
一方、事前トレーニングデータセットの合理的な選択は、下流タスクでは完全に効果がないことが判明した。
これは、近年の努力にもかかわらず、vision & language pretrainingはまだ"最初から"機能していないことを示唆している。
全体として、我々の研究の副産物として、事前学習における単純な設計選択は、アーキテクチャ上の変更なしに下流タスクにおける最先端の成果に近づくのに役立ちます。
関連論文リスト
- An Unbiased Look at Datasets for Visuo-Motor Pre-Training [20.094244564603184]
データセットの選択は、このパラダイムの成功と同じくらい重要です。
従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。
シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
論文 参考訳(メタデータ) (2023-10-13T17:59:02Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Meta-learning for downstream aware and agnostic pretraining [7.2051162210119495]
本稿では,メタラーニングを用いて,事前学習の各エピソードにおいて最も有意義な学習信号を提供するタスクを選択することを提案する。
本手法とその2つの変種である下流認識と下流認識事前学習のアルゴリズムについて論じる。
論文 参考訳(メタデータ) (2021-06-06T23:08:09Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。