論文の概要: Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
- arxiv url: http://arxiv.org/abs/2301.06267v5
- Date: Tue, 27 Aug 2024 19:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:50:55.861872
- Title: Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
- Title(参考訳): マルチモダリティは一様性を助ける:マルチモダリティモデルを用いたクロスモーダル・ファウショット学習
- Authors: Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan,
- Abstract要約: 人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。
我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
- 参考スコア(独自算出の注目度): 69.31424345583537
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The ability to quickly learn a new task with minimal instruction - known as few-shot learning - is a central aspect of intelligent agents. Classical few-shot benchmarks make use of few-shot samples from a single modality, but such samples may not be sufficient to characterize an entire concept class. In contrast, humans use cross-modal information to learn new concepts efficiently. In this work, we demonstrate that one can indeed build a better ${\bf visual}$ dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them bark. To do so, we exploit the fact that recent multimodal foundation models such as CLIP learn cross-modal encoders that map different modalities to the same representation space. Specifically, we propose a simple strategy for ${\bf cross-modal}$ ${\bf adaptation}$: we treat examples from different modalities as additional few-shot examples. For example, by simply repurposing class names as an additional training sample, we trivially turn any n-shot learning problem into a (n+1)-shot problem. This allows us to produce SOTA results with embarrassingly simple linear classifiers. We show that our approach can be combined with existing methods such as prefix tuning, adapters, and classifier ensembling. Finally, to explore other modalities beyond vision and language, we construct the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal training to improve the performance of both image and audio classification.
- Abstract(参考訳): 少数ショット学習として知られる最小限の命令で新しいタスクを素早く学習する能力は、インテリジェントエージェントの中心的な側面である。
古典的な数発のベンチマークでは、単一のモダリティから数発のサンプルを使用するが、そのようなサンプルは概念クラス全体を特徴づけるには不十分かもしれない。
対照的に、人間はクロスモーダル情報を使って新しい概念を効率的に学習する。
この研究で、実際に${\bf visual}$dog classifier by ${\bf read} $ing about dog and ${\bf listen} $ing to them bark. で、より優れた${\bf visual}$dog classifierを構築できることを示した。
そのために、CLIPのような最近のマルチモーダル基盤モデルは、異なるモーダルを同じ表現空間にマッピングするクロスモーダルエンコーダを学習しているという事実を利用する。
具体的には、${\bf cross-modal}$${\bf adaptation}$: 異なるモダリティの例を追加のいくつかの例として扱う。
例えば、クラス名を追加のトレーニングサンプルとして再利用するだけで、任意のnショット学習問題を(n+1)ショット問題に変換することができる。
これにより、恥ずかしいほど単純な線形分類器でSOTA結果を生成することができる。
提案手法は,プレフィックスチューニングやアダプタ,分類器アンサンブルといった既存の手法と組み合わせることができることを示す。
最後に、視覚と言語以外のモダリティを探索するために、最初の(知識のために)オーディオヴィジュアルな少数ショットベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Few-Shot Learning with a Strong Teacher [36.35502703114652]
限られたラベル付き例を使って強力な分類器を訓練することを目的としていない。
既存の多くの作業はメタラーニングアプローチを採用し、数発のタスクを順番にサンプリングし、クエリの例を分類する際の数発の学習者のパフォーマンスを最適化する。
そこで本研究では,少数の学習者を直接訓練して,強力な分類器のように動作させる新しい目標を提案する。
論文 参考訳(メタデータ) (2021-07-01T03:20:46Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z) - 'Less Than One'-Shot Learning: Learning N Classes From M<N Samples [13.70633147306388]
数ショットの学習環境では、モデルは、そのクラスから少数のサンプルだけを与えられた新しいクラスを学習しなければならない。
モデルが$N$の新しいクラスを学習しなければならないのは,MN$の例のみである。
論文 参考訳(メタデータ) (2020-09-17T17:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。