論文の概要: EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2206.14355v1
- Date: Wed, 29 Jun 2022 01:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 19:10:10.224573
- Title: EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual
Question Answering
- Title(参考訳): EBM vs. CL:ビジュアル質問応答のための自己監督型ビジュアル事前学習
- Authors: Violetta Shevchenko, Ehsan Abbasnejad, Anthony Dick, Anton van den
Hengel, Damien Teney
- Abstract要約: クリーンで多様なラベル付きデータは、視覚的質問応答(VQA)のような複雑なタスクのモデルをトレーニングするための主要な障害である
我々は、ラベルのない画像を利用してモデルを事前訓練するための自己教師付き手法をレビューし、評価し、それをカスタムVQAタスクで微調整する。
EBMもCLもラベルのない画像から表現を学習でき、非常に少ない注釈付きデータでVQAモデルをトレーニングできることがわかった。
- 参考スコア(独自算出の注目度): 53.40635559899501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of clean and diverse labeled data is a major roadblock for
training models on complex tasks such as visual question answering (VQA). The
extensive work on large vision-and-language models has shown that
self-supervised learning is effective for pretraining multimodal interactions.
In this technical report, we focus on visual representations. We review and
evaluate self-supervised methods to leverage unlabeled images and pretrain a
model, which we then fine-tune on a custom VQA task that allows controlled
evaluation and diagnosis. We compare energy-based models (EBMs) with
contrastive learning (CL). While EBMs are growing in popularity, they lack an
evaluation on downstream tasks. We find that both EBMs and CL can learn
representations from unlabeled images that enable training a VQA model on very
little annotated data. In a simple setting similar to CLEVR, we find that CL
representations also improve systematic generalization, and even match the
performance of representations from a larger, supervised, ImageNet-pretrained
model. However, we find EBMs to be difficult to train because of instabilities
and high variability in their results. Although EBMs prove useful for OOD
detection, other results on supervised energy-based training and uncertainty
calibration are largely negative. Overall, CL currently seems a preferable
option over EBMs.
- Abstract(参考訳): クリーンで多様なラベル付きデータの可用性は、視覚的質問応答(VQA)のような複雑なタスクでモデルをトレーニングするための主要な障害である。
大規模視覚・言語モデルに関する広範な研究により、自己教師付き学習がマルチモーダル相互作用の事前訓練に有効であることが示されている。
本報告では,視覚的表現に注目した。
我々は,ラベルなし画像を利用した自己教師あり手法をレビュー・評価し,モデルの事前学習を行い,評価と診断を制御可能なカスタムvqaタスクに微調整を行った。
エネルギーベースモデル(EBM)と対照的学習(CL)を比較した。
EBMの人気は高まっているが、下流タスクの評価には欠けている。
EBMもCLもラベルのない画像から表現を学習でき、非常に少ない注釈付きデータでVQAモデルをトレーニングできることがわかった。
CLEVRに類似した単純な設定では、CL表現は体系的な一般化も改善し、より大きな教師付き ImageNet-Pretrained モデルからの表現のパフォーマンスにマッチする。
しかし,ebmは不安定性と高い変動性のため,訓練が困難であることがわかった。
ebmsはood検出に有用であるが、教師付きエネルギーベースのトレーニングと不確実性校正の他の結果は概ね負である。
全体として、現在clはebmsよりも望ましい選択肢に思える。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Revisiting Weakly Supervised Pre-Training of Visual Perception Models [27.95816470075203]
大規模で弱い教師付き事前訓練は、完全に教師付きアプローチよりも優れている。
本稿では,ハッシュタグによるモデル事前学習の弱さを再考する。
本研究は,視覚認識システム開発における弱教師付き学習の活用について,説得力のある議論を提起する。
論文 参考訳(メタデータ) (2022-01-20T18:55:06Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。