論文の概要: Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models
- arxiv url: http://arxiv.org/abs/2301.06267v4
- Date: Thu, 3 Aug 2023 01:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:14:17.109039
- Title: Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models
- Title(参考訳): マルチモダリティは一様性を助ける:マルチモダリティモデルを用いたクロスモーダル・ファウショット学習
- Authors: Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan
- Abstract要約: 人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
異なるモダリティにまたがる少数ショット例から学習する,シンプルなクロスモーダル適応手法を提案する。
- 参考スコア(独自算出の注目度): 61.97890177840515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to quickly learn a new task with minimal instruction - known as
few-shot learning - is a central aspect of intelligent agents. Classical
few-shot benchmarks make use of few-shot samples from a single modality, but
such samples may not be sufficient to characterize an entire concept class. In
contrast, humans use cross-modal information to learn new concepts efficiently.
In this work, we demonstrate that one can indeed build a better ${\bf visual}$
dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them
bark. To do so, we exploit the fact that recent multimodal foundation models
such as CLIP are inherently cross-modal, mapping different modalities to the
same representation space. Specifically, we propose a simple cross-modal
adaptation approach that learns from few-shot examples spanning different
modalities. By repurposing class names as additional one-shot training samples,
we achieve SOTA results with an embarrassingly simple linear classifier for
vision-language adaptation. Furthermore, we show that our approach can benefit
existing methods such as prefix tuning, adapters, and classifier ensembling.
Finally, to explore other modalities beyond vision and language, we construct
the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal
training to improve the performance of both image and audio classification.
- Abstract(参考訳): 少数ショット学習として知られる最小限の命令で新しいタスクを素早く学習する能力は、インテリジェントエージェントの中心的な側面である。
古典的な少数ショットベンチマークでは、単一のモダリティから少数ショットのサンプルを使用するが、そのようなサンプルでは概念クラス全体を特徴付けるには不十分である。
対照的に、人間はクロスモーダル情報を使って新しい概念を効率的に学習する。
この研究で、実際に${\bf visual}$dog classifier by ${\bf read} $ing about dog and ${\bf listen} $ing to them bark. で、より優れた${\bf visual}$dog classifierを構築できることを示した。
そのため、最近のCLIPのようなマルチモーダル基盤モデルは本質的にクロスモーダルであり、異なるモダリティを同じ表現空間にマッピングする。
具体的には,異なるモダリティにまたがる少数の例から学ぶ,単純なクロスモーダル適応手法を提案する。
クラス名を追加のワンショットトレーニングサンプルとして再利用することにより、視覚言語適応のための恥ずかしいほど単純な線形分類器を用いてSOTA結果を得る。
さらに,提案手法は,プレフィックスチューニングやアダプタ,分類器アンサンブルといった既存の手法の恩恵を受けることができることを示す。
最後に、視覚と言語以外のモダリティを検討するために、最初の(知識のある)オーディオビジュアルのマイノリティベンチマークを構築し、クロスモーダルトレーニングを使用して、画像と音声の分類のパフォーマンスを向上させる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Few-Shot Learning with a Strong Teacher [36.35502703114652]
限られたラベル付き例を使って強力な分類器を訓練することを目的としていない。
既存の多くの作業はメタラーニングアプローチを採用し、数発のタスクを順番にサンプリングし、クエリの例を分類する際の数発の学習者のパフォーマンスを最適化する。
そこで本研究では,少数の学習者を直接訓練して,強力な分類器のように動作させる新しい目標を提案する。
論文 参考訳(メタデータ) (2021-07-01T03:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。