論文の概要: Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models
- arxiv url: http://arxiv.org/abs/2301.06267v4
- Date: Thu, 3 Aug 2023 01:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:14:17.109039
- Title: Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models
- Title(参考訳): マルチモダリティは一様性を助ける:マルチモダリティモデルを用いたクロスモーダル・ファウショット学習
- Authors: Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan
- Abstract要約: 人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
異なるモダリティにまたがる少数ショット例から学習する,シンプルなクロスモーダル適応手法を提案する。
- 参考スコア(独自算出の注目度): 61.97890177840515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to quickly learn a new task with minimal instruction - known as
few-shot learning - is a central aspect of intelligent agents. Classical
few-shot benchmarks make use of few-shot samples from a single modality, but
such samples may not be sufficient to characterize an entire concept class. In
contrast, humans use cross-modal information to learn new concepts efficiently.
In this work, we demonstrate that one can indeed build a better ${\bf visual}$
dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them
bark. To do so, we exploit the fact that recent multimodal foundation models
such as CLIP are inherently cross-modal, mapping different modalities to the
same representation space. Specifically, we propose a simple cross-modal
adaptation approach that learns from few-shot examples spanning different
modalities. By repurposing class names as additional one-shot training samples,
we achieve SOTA results with an embarrassingly simple linear classifier for
vision-language adaptation. Furthermore, we show that our approach can benefit
existing methods such as prefix tuning, adapters, and classifier ensembling.
Finally, to explore other modalities beyond vision and language, we construct
the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal
training to improve the performance of both image and audio classification.
- Abstract(参考訳): 少数ショット学習として知られる最小限の命令で新しいタスクを素早く学習する能力は、インテリジェントエージェントの中心的な側面である。
古典的な少数ショットベンチマークでは、単一のモダリティから少数ショットのサンプルを使用するが、そのようなサンプルでは概念クラス全体を特徴付けるには不十分である。
対照的に、人間はクロスモーダル情報を使って新しい概念を効率的に学習する。
この研究で、実際に${\bf visual}$dog classifier by ${\bf read} $ing about dog and ${\bf listen} $ing to them bark. で、より優れた${\bf visual}$dog classifierを構築できることを示した。
そのため、最近のCLIPのようなマルチモーダル基盤モデルは本質的にクロスモーダルであり、異なるモダリティを同じ表現空間にマッピングする。
具体的には,異なるモダリティにまたがる少数の例から学ぶ,単純なクロスモーダル適応手法を提案する。
クラス名を追加のワンショットトレーニングサンプルとして再利用することにより、視覚言語適応のための恥ずかしいほど単純な線形分類器を用いてSOTA結果を得る。
さらに,提案手法は,プレフィックスチューニングやアダプタ,分類器アンサンブルといった既存の手法の恩恵を受けることができることを示す。
最後に、視覚と言語以外のモダリティを検討するために、最初の(知識のある)オーディオビジュアルのマイノリティベンチマークを構築し、クロスモーダルトレーニングを使用して、画像と音声の分類のパフォーマンスを向上させる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Few-Shot Learning with a Strong Teacher [36.35502703114652]
限られたラベル付き例を使って強力な分類器を訓練することを目的としていない。
既存の多くの作業はメタラーニングアプローチを採用し、数発のタスクを順番にサンプリングし、クエリの例を分類する際の数発の学習者のパフォーマンスを最適化する。
そこで本研究では,少数の学習者を直接訓練して,強力な分類器のように動作させる新しい目標を提案する。
論文 参考訳(メタデータ) (2021-07-01T03:20:46Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z) - 'Less Than One'-Shot Learning: Learning N Classes From M<N Samples [13.70633147306388]
数ショットの学習環境では、モデルは、そのクラスから少数のサンプルだけを与えられた新しいクラスを学習しなければならない。
モデルが$N$の新しいクラスを学習しなければならないのは,MN$の例のみである。
論文 参考訳(メタデータ) (2020-09-17T17:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。