論文の概要: FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models?
- arxiv url: http://arxiv.org/abs/2307.04114v1
- Date: Sun, 9 Jul 2023 08:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 15:21:06.643735
- Title: FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models?
- Title(参考訳): FILM: 事前学習言語モデルによる画像分類はどのように適合するか?
- Authors: Zihao Jiang, Yunkai Dang, Dong Pang, Huishuai Zhang, Weiran Huang
- Abstract要約: 少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.582209994281374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning aims to train models that can be generalized to novel
classes with only a few samples. Recently, a line of works are proposed to
enhance few-shot learning with accessible semantic information from class
names. However, these works focus on improving existing modules such as visual
prototypes and feature extractors of the standard few-shot learning framework.
This limits the full potential use of semantic information. In this paper, we
propose a novel few-shot learning framework that uses pre-trained language
models based on contrastive learning. To address the challenge of alignment
between visual features and textual embeddings obtained from text-based
pre-trained language model, we carefully design the textual branch of our
framework and introduce a metric module to generalize the cosine similarity.
For better transferability, we let the metric module adapt to different
few-shot tasks and adopt MAML to train the model via bi-level optimization.
Moreover, we conduct extensive experiments on multiple benchmarks to
demonstrate the effectiveness of our method.
- Abstract(参考訳): 少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
近年、クラス名からアクセス可能なセマンティック情報を用いて、少数ショット学習を強化するための一連の研究が提案されている。
しかし、これらの作業は、標準のマイナショット学習フレームワークのビジュアルプロトタイプや機能抽出子などの既存のモジュールの改善に焦点を当てている。
これにより、意味情報の完全な利用が制限される。
本稿では,コントラスト学習に基づく事前学習言語モデルを用いた,新しい数発学習フレームワークを提案する。
テキストベースの事前学習言語モデルから得られる視覚的特徴とテキスト埋め込みの整合性に対処するため,フレームワークのテキスト分岐を慎重に設計し,コサイン類似性を一般化するためのメトリックモジュールを導入する。
転送性を向上させるため、メトリックモジュールを異なる数ショットタスクに適応させ、MAMLを採用してバイレベル最適化によりモデルをトレーニングする。
さらに,本手法の有効性を実証するため,複数のベンチマーク実験を行った。
関連論文リスト
- Less is More: A Closer Look at Semantic-based Few-Shot Learning [11.724194320966959]
Few-shot Learningは、利用可能な画像の数が非常に限られている新しいカテゴリを学習し、区別することを目的としている。
本稿では,テキスト情報と言語モデルを活用することを目的とした,数ショットの学習タスクのための,シンプルだが効果的なフレームワークを提案する。
広範に使われている4つのショットデータセットで実施した実験は、我々の単純なフレームワークが印象的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-10T08:56:02Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Contrastive Learning for Prompt-Based Few-Shot Language Learners [14.244787327283335]
異なる拡張された"ビュー"の下で同じクラスから入力をクラスタリングする対照的な学習フレームワークを提案する。
私たちは、異なる言語プロンプトとコンテキスト実証を付加することで、サンプルの異なる"ビュー"を作成します。
提案手法は15の言語タスクの多種多様なセットにおいて最先端の手法よりも改善できる。
論文 参考訳(メタデータ) (2022-05-03T04:56:45Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。