論文の概要: Less is More : A Closer Look at Multi-Modal Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2401.05010v1
- Date: Wed, 10 Jan 2024 08:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:04:11.280098
- Title: Less is More : A Closer Look at Multi-Modal Few-Shot Learning
- Title(参考訳): less is more : マルチモーダル・マイノショット学習をよく見る
- Authors: Chunpeng Zhou, Haishuai Wang, Xilu Yuan, Zhi Yu, Jiajun Bu
- Abstract要約: Few-shot Learningは、利用可能な画像の数が非常に限られている新しいカテゴリを学習し、区別することを目的としている。
本稿では,テキスト情報と言語モデルを活用することを目的とした,数ショットの学習タスクのための,シンプルだが効果的なフレームワークを提案する。
広範に使われている4つのショットデータセットで実施した実験は、我々の単純なフレームワークが印象的な結果をもたらすことを示した。
- 参考スコア(独自算出の注目度): 12.578254442490051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot Learning aims to learn and distinguish new categories with a very
limited number of available images, presenting a significant challenge in the
realm of deep learning. Recent researchers have sought to leverage the
additional textual or linguistic information of these rare categories with a
pre-trained language model to facilitate learning, thus partially alleviating
the problem of insufficient supervision signals. However, the full potential of
the textual information and pre-trained language model have been underestimated
in the few-shot learning till now, resulting in limited performance
enhancements. To address this, we propose a simple but effective framework for
few-shot learning tasks, specifically designed to exploit the textual
information and language model. In more detail, we explicitly exploit the
zero-shot capability of the pre-trained language model with the learnable
prompt. And we just add the visual feature with the textual feature for
inference directly without the intricate designed fusion modules in previous
works. Additionally, we apply the self-ensemble and distillation to further
enhance these components. Our extensive experiments conducted across four
widely used few-shot datasets demonstrate that our simple framework achieves
impressive results. Particularly noteworthy is its outstanding performance in
the 1-shot learning task, surpassing state-of-the-art methods by an average of
3.0\% in classification accuracy. \footnote{We will make the source codes of
the proposed framework publicly available upon acceptance. }.
- Abstract(参考訳): few-shot learningは、新しいカテゴリを非常に限られた数のイメージで学習し、識別することを目的としている。
近年の研究者は、これらの稀なカテゴリーのテキスト情報や言語情報を事前訓練された言語モデルに活用して学習を容易にし、監視信号の不十分な問題を部分的に緩和しようと試みている。
しかし、テキスト情報と事前訓練された言語モデルの潜在能力は、これまで数ショットの学習で過小評価され、パフォーマンスが制限された。
そこで本研究では,テキスト情報と言語モデルの活用を目的とした,単純かつ効果的な学習タスクフレームワークを提案する。
より詳しくは、学習可能なプロンプトで事前学習された言語モデルのゼロショット機能を明示的に活用する。
そして、以前の作業で複雑な設計の融合モジュールを使わずに、直接推論するためのテキスト機能にビジュアル機能を追加するだけです。
さらに, これらの成分をさらに強化するために, 自己アンサンブルと蒸留を適用した。
広く使われている4つのショットデータセットで実施した大規模な実験は、私たちの単純なフレームワークが素晴らしい結果をもたらすことを示す。
特に注目すべきは、1ショット学習タスクにおける優れた性能であり、分類精度で平均3.0\%の最先端手法を上回っている。
提案されたフレームワークのソースコードを受理時に公開します。
}.
関連論文リスト
- FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - An Attention-Based Model for Predicting Contextual Informativeness and
Curriculum Learning Applications [11.775048147405725]
文の指導的側面に着目し,文脈的情報度を推定するモデルを構築した。
対象単語に対する読者の理解に最も寄与する可能性のある文中の重要な文脈要素を,我々のモデルがいかに認識するかを示す。
我々は,人間と機械の学習者の両方に言語学習をサポートするアプリケーションに対して,新たな可能性を開くと信じている。
論文 参考訳(メタデータ) (2022-04-21T05:17:49Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。