Fugu-MT 論文翻訳(概要): On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization

論文の概要: On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization

arxiv url: http://arxiv.org/abs/2405.18751v1
Date: Wed, 29 May 2024 04:29:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 18:48:25.189527
Title: On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization
Title（参考訳）: 条件付きバッチ正規化を用いた補助タスク変調によるマルチモーダルメタラーニングの限界について
Authors: Jordi Armengol-Estapé, Vincent Michalski, Ramnath Kumar, Pierre-Luc St-Charles, Doina Precup, Samira Ebrahimi Kahou,
Abstract要約: 少ないショット学習は、新しいタスクに対処できる表現を学習することを目的としている。近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。言語は豊かなモダリティであり、視覚的な学習を導くのに使うことができる。
参考スコア（独自算出の注目度）: 35.39571632348391
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot learning aims to learn representations that can tackle novel tasks given a small number of examples. Recent studies show that cross-modal learning can improve representations for few-shot classification. More specifically, language is a rich modality that can be used to guide visual learning. In this work, we experiment with a multi-modal architecture for few-shot learning that consists of three components: a classifier, an auxiliary network, and a bridge network. While the classifier performs the main classification task, the auxiliary network learns to predict language representations from the same input, and the bridge network transforms high-level features of the auxiliary network into modulation parameters for layers of the few-shot classifier using conditional batch normalization. The bridge should encourage a form of lightweight semantic alignment between language and vision which could be useful for the classifier. However, after evaluating the proposed approach on two popular few-shot classification benchmarks we find that a) the improvements do not reproduce across benchmarks, and b) when they do, the improvements are due to the additional compute and parameters introduced by the bridge network. We contribute insights and recommendations for future work in multi-modal meta-learning, especially when using language representations.
Abstract（参考訳）: 少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。より具体的に言えば、言語は視覚学習を導くのに使える豊富なモダリティである。本研究では, 分類器, 補助ネットワーク, ブリッジネットワークという3つのコンポーネントから構成される, 数ショット学習のためのマルチモーダルアーキテクチャを実験する。分類器が主分類タスクを実行する間、補助ネットワークは同じ入力から言語表現を予測することを学習し、ブリッジネットワークは、補助ネットワークの高レベルな特徴を条件付きバッチ正規化を用いて、少数ショット分類器の層に対する変調パラメータに変換する。このブリッジは、言語と視覚の間の軽量なセマンティックアライメントの形式を奨励し、分類器に役立てるべきである。しかし、2つの一般的な数ショット分類ベンチマークに対する提案されたアプローチを評価すると、そのことが分かる。 a) 改善はベンチマーク全体にわたって再現されず、 b)ブリッジネットワークによって導入された計算とパラメータの追加による改善。言語表現を用いたマルチモーダルなメタラーニングにおける今後の研究に対する洞察と提言に貢献する。

関連論文リスト

APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。標準の2段階オブジェクト検出器アーキテクチャを採用する。言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文参考訳（メタデータ） (2023-06-08T18:31:56Z)
Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文参考訳（メタデータ） (2023-02-28T17:46:18Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
Multi-scale Adaptive Task Attention Network for Few-Shot Learning [5.861206243996454]
少数ショット学習の目標は、ラベル付きサンプルの少ない未確認カテゴリを分類することである。本稿では,マルチスケール適応タスク注意ネットワーク(MATANet)を提案する。
論文参考訳（メタデータ） (2020-11-30T00:36:01Z)
Adversarial Multi-Binary Neural Network for Multi-class Classification [19.298875915675502]
マルチタスクフレームワークを使用して、マルチクラス分類に対処する。我々は,クラス固有の特徴とクラスに依存しない特徴を識別するために,対人訓練を実践する。
論文参考訳（メタデータ） (2020-03-25T02:19:17Z)
Selecting Relevant Features from a Multi-domain Representation for Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文参考訳（メタデータ） (2020-03-20T15:44:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。