論文の概要: Visually grounded few-shot word learning in low-resource settings
- arxiv url: http://arxiv.org/abs/2306.11371v3
- Date: Thu, 18 Apr 2024 17:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:49:22.949647
- Title: Visually grounded few-shot word learning in low-resource settings
- Title(参考訳): 低リソース環境における数発の単語学習の視覚的基盤化
- Authors: Leanne Nortje, Dan Oneata, Herman Kamper,
- Abstract要約: そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 23.826000011632917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a visually grounded speech model that learns new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this few-shot learning problem by either using an artificial setting with digit word-image pairs or by using a large number of examples per class. Moreover, all previous studies were performed using English speech-image data. We propose an approach that can work on natural word-image pairs but with less examples, i.e. fewer shots, and then illustrate how this approach can be applied for multimodal few-shot learning in a real low-resource language, Yor\`ub\'a. Our approach involves using the given word-image example pairs to mine new unsupervised word-image training pairs from large collections of unlabelled speech and images. Additionally, we use a word-to-image attention mechanism to determine word-image similarity. With this new model, we achieve better performance with fewer shots than previous approaches on an existing English benchmark. Many of the model's mistakes are due to confusion between visual concepts co-occurring in similar contexts. The experiments on Yor\`ub\'a show the benefit of transferring knowledge from a multimodal model trained on a larger set of English speech-image data.
- Abstract(参考訳): 本稿では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。
従来の作業は、桁のワードイメージ対を持つ人工的な設定を使用するか、クラス毎に多数のサンプルを使用することによって、この数発の学習問題を単純化した。
さらに、過去のすべての研究は、英語の音声画像データを用いて行われた。
より少ない例、すなわち少ないショットで自然な単語イメージ対に作用するアプローチを提案し、そのアプローチが実際の低リソース言語であるYor\ub\'aにおけるマルチモーダルな複数ショット学習にどのように適用できるかを説明する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
さらに、単語と画像の類似性を決定するために、単語と画像の注意機構を使用する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
モデルの間違いの多くは、視覚概念の混同によるものである。
Yor\`ub\'aの実験は、より大きな英語の音声画像データに基づいて訓練されたマルチモーダルモデルから知識を伝達する利点を示している。
関連論文リスト
- Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Visually grounded few-shot word acquisition with fewer shots [26.114011076658237]
そこで本研究では,少数の単語イメージ対から新しい単語とその視覚的描写を取得するモデルを提案する。
我々は、単語と画像の類似性を決定するために、単語と画像の注意機構を使用する。
この新しいモデルでは、既存のどのアプローチよりも少ないショットでより良いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-25T11:05:54Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Direct multimodal few-shot learning of speech and images [37.039034113884085]
本稿では,いくつかの例から音声単語と画像の共有埋め込み空間を学習する直接モデルを提案する。
この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。
論文 参考訳(メタデータ) (2020-12-10T14:06:57Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。