論文の概要: Visually grounded few-shot word learning in low-resource settings
- arxiv url: http://arxiv.org/abs/2306.11371v2
- Date: Wed, 21 Jun 2023 07:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 10:28:21.256252
- Title: Visually grounded few-shot word learning in low-resource settings
- Title(参考訳): 低リソース環境下での視覚的単語学習
- Authors: Leanne Nortje, Dan Oneata, Herman Kamper
- Abstract要約: そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では、与えられた単語イメージの例対を用いて、教師なしの単語イメージトレーニングペアを音声と画像の大規模なコレクションから抽出する。
ヨルバにおける実験は、より大きな英単語画像データに基づいて訓練されたマルチモーダルモデルから知識を伝達する利点を示す。
- 参考スコア(独自算出の注目度): 24.797675274368302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a visually grounded speech model that learns new words and their
visual depictions from just a few word-image example pairs. Given a set of test
images and a spoken query, we ask the model which image depicts the query word.
Previous work has simplified this few-shot learning problem by either using an
artificial setting with digit word-image pairs or by using a large number of
examples per class. Moreover, all previous studies were performed using English
speech-image data. We propose an approach that can work on natural word-image
pairs but with less examples, i.e. fewer shots, and then illustrate how this
approach can be applied for multimodal few-shot learning in a real low-resource
language, Yoruba. Our approach involves using the given word-image example
pairs to mine new unsupervised word-image training pairs from large collections
of unlabelledspeech and images. Additionally, we use a word-to-image attention
mechanism to determine word-image similarity. With this new model, we achieve
better performance with fewer shots than previous approaches on an existing
English benchmark. Many of the model's mistakes are due to confusion between
visual concepts co-occurring in similar contexts. The experiments on Yoruba
show the benefit of transferring knowledge from a multimodal model trained on a
larger set of English speech-image data.
- Abstract(参考訳): 本稿では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。
以前の研究では、デジタルワードイメージペアの人工的な設定を使うか、クラス毎に多数の例を使用することで、この少数ショット学習問題を単純化している。
また,これまでの研究はすべて英語音声画像データを用いて行われた。
我々は,自然の単語と画像のペアを扱うことができるが,サンプルが少ない場合,すなわちショットが少ない場合,このアプローチが実際の低リソース言語であるyorubaでマルチモーダルな少数ショット学習にどのように適用できるかを説明する。
提案手法では,与えられた単語イメージのサンプルペアを用いて,未知の音声と画像の集合から教師なしの単語イメージトレーニングペアを抽出する。
さらに,単語画像の類似性を決定するために,単語間注意機構を用いる。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを達成する。
モデルの間違いの多くは、同じ文脈で共起する視覚概念の混乱によるものです。
ヨルバの実験は、より大きな英単語画像データに基づいて訓練されたマルチモーダルモデルから知識を伝達する利点を示す。
関連論文リスト
- Visually grounded few-shot word acquisition with fewer shots [26.114011076658237]
そこで本研究では,少数の単語イメージ対から新しい単語とその視覚的描写を取得するモデルを提案する。
我々は、単語と画像の類似性を決定するために、単語と画像の注意機構を使用する。
この新しいモデルでは、既存のどのアプローチよりも少ないショットでより良いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-25T11:05:54Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Direct multimodal few-shot learning of speech and images [37.039034113884085]
本稿では,いくつかの例から音声単語と画像の共有埋め込み空間を学習する直接モデルを提案する。
この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。
論文 参考訳(メタデータ) (2020-12-10T14:06:57Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。