論文の概要: Unsupervised vs. transfer learning for multimodal one-shot matching of
speech and images
- arxiv url: http://arxiv.org/abs/2008.06258v1
- Date: Fri, 14 Aug 2020 09:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:03:24.710202
- Title: Unsupervised vs. transfer learning for multimodal one-shot matching of
speech and images
- Title(参考訳): 音声と画像のマルチモーダルワンショットマッチングのための教師なし対転送学習
- Authors: Leanne Nortje, Herman Kamper
- Abstract要約: マルチモーダルワンショット音声画像マッチングの課題について考察する。
単目的と多目的の両方のショットマッチング実験では、トランスファーラーニングが教師なしトレーニングより優れていることが判明した。
- 参考スコア(独自算出の注目度): 27.696096343873215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of multimodal one-shot speech-image matching. An agent
is shown a picture along with a spoken word describing the object in the
picture, e.g. cookie, broccoli and ice-cream. After observing one paired
speech-image example per class, it is shown a new set of unseen pictures, and
asked to pick the "ice-cream". Previous work attempted to tackle this problem
using transfer learning: supervised models are trained on labelled background
data not containing any of the one-shot classes. Here we compare transfer
learning to unsupervised models trained on unlabelled in-domain data. On a
dataset of paired isolated spoken and visual digits, we specifically compare
unsupervised autoencoder-like models to supervised classifier and Siamese
neural networks. In both unimodal and multimodal few-shot matching experiments,
we find that transfer learning outperforms unsupervised training. We also
present experiments towards combining the two methodologies, but find that
transfer learning still performs best (despite idealised experiments showing
the benefits of unsupervised learning).
- Abstract(参考訳): マルチモーダルワンショット音声画像マッチングの課題について考察する。
エージェントは、画像中のオブジェクト、例えばクッキー、ブロッコリー、アイスクリームを記述する言葉とともに、画像を表示する。
クラス毎に1対の音声画像例を観察した後、目に見えない新しい画像のセットを示し、"ice-cream"を選択するように求めた。
教師付きモデルは、ワンショットクラスを含まないラベル付きバックグラウンドデータに基づいてトレーニングされます。
ここでは、ドメイン内データに基づいて訓練された教師なしモデルと比較する。
ペア化された音声と視覚の桁のデータセットでは、教師なしオートエンコーダのようなモデルと教師付き分類器とシームズニューラルネットワークを比較した。
ユニモーダルとマルチモーダルのマイトショットマッチング実験では、トランスファー学習が教師なしのトレーニングよりも優れていることが分かりました。
また,この2つの手法を組み合わせる実験を行ったが,トランスファー学習はいまだに最良であることがわかった(教師なし学習の利点を示す理想的実験は存在するが)。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - A Semi-Paired Approach For Label-to-Image Translation [6.888253564585197]
ラベル・ツー・イメージ翻訳のための半教師付き(半ペア)フレームワークを初めて紹介する。
半ペア画像設定では、小さなペアデータとより大きなペア画像とラベルのセットにアクセスすることができる。
本稿では,この共有ネットワークのためのトレーニングアルゴリズムを提案し,非表現型クラスに着目した希少なクラスサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-23T16:13:43Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Direct multimodal few-shot learning of speech and images [37.039034113884085]
本稿では,いくつかの例から音声単語と画像の共有埋め込み空間を学習する直接モデルを提案する。
この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。
論文 参考訳(メタデータ) (2020-12-10T14:06:57Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。