論文の概要: Making the Most of What You Have: Adapting Pre-trained Visual Language
Models in the Low-data Regime
- arxiv url: http://arxiv.org/abs/2305.02297v1
- Date: Wed, 3 May 2023 17:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:48:42.515375
- Title: Making the Most of What You Have: Adapting Pre-trained Visual Language
Models in the Low-data Regime
- Title(参考訳): 最大限に活用する - トレーニング済みのビジュアル言語モデルを低データレジームに適応する
- Authors: Chuhan Zhang, Antoine Miech, Jiajun Shen, Jean-Baptiste Alayrac,
Pauline Luc
- Abstract要約: 低データ構造におけるタスク適応について検討し、生成型ビジュアル言語モデルに対する既存の適応手法について検討する。
我々は,多数の未ラベル画像にアクセスする際に,モデル自身の予測を用いて自己改善を行うという,自己ラベル化の重要な利点を示す。
- 参考スコア(独自算出の注目度): 23.255873641249263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale visual language models are widely used as pre-trained models and
then adapted for various downstream tasks. While humans are known to
efficiently learn new tasks from a few examples, deep learning models struggle
with adaptation from few examples. In this work, we look into task adaptation
in the low-data regime, and provide a thorough study of the existing adaptation
methods for generative Visual Language Models. And we show important benefits
of self-labelling, i.e. using the model's own predictions to self-improve when
having access to a larger number of unlabelled images of the same distribution.
Our study demonstrates significant gains using our proposed task adaptation
pipeline across a wide range of visual language tasks such as visual
classification (ImageNet), visual captioning (COCO), detailed visual captioning
(Localised Narratives) and visual question answering (VQAv2).
- Abstract(参考訳): 大規模ビジュアル言語モデルは、事前訓練されたモデルとして広く使われ、様々な下流タスクに適応する。
人間はいくつかの例から新しいタスクを効率的に学習することが知られているが、ディープラーニングモデルは少数の例から適応に苦労している。
本研究では,低データ構造におけるタスク適応について検討し,生成型ビジュアル言語モデルに対する既存の適応手法について詳しく検討する。
また,同一分布の多数の非ラベル画像にアクセスする際に,モデル独自の予測を用いて自己改善を行うという,自己ラベル付けの重要なメリットを示す。
本研究では,視覚的分類 (ImageNet), 視覚的キャプション (COCO), 詳細な視覚的キャプション (Localized Narratives), 視覚的質問応答 (VQAv2) など,幅広い視覚的言語タスクを対象としたタスク適応パイプラインを用いて大きな効果を示した。
関連論文リスト
- CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。