論文の概要: Visually grounded few-shot word acquisition with fewer shots
- arxiv url: http://arxiv.org/abs/2305.15937v1
- Date: Thu, 25 May 2023 11:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:36:25.634554
- Title: Visually grounded few-shot word acquisition with fewer shots
- Title(参考訳): 少ないショットで、視覚的に接地した少数単語獲得
- Authors: Leanne Nortje, Benjamin van Niekerk, Herman Kamper
- Abstract要約: そこで本研究では,少数の単語イメージ対から新しい単語とその視覚的描写を取得するモデルを提案する。
我々は、単語と画像の類似性を決定するために、単語と画像の注意機構を使用する。
この新しいモデルでは、既存のどのアプローチよりも少ないショットでより良いパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 26.114011076658237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a visually grounded speech model that acquires new words and their
visual depictions from just a few word-image example pairs. Given a set of test
images and a spoken query, we ask the model which image depicts the query word.
Previous work has simplified this problem by either using an artificial setting
with digit word-image pairs or by using a large number of examples per class.
We propose an approach that can work on natural word-image pairs but with less
examples, i.e. fewer shots. Our approach involves using the given word-image
example pairs to mine new unsupervised word-image training pairs from large
collections of unlabelled speech and images. Additionally, we use a
word-to-image attention mechanism to determine word-image similarity. With this
new model, we achieve better performance with fewer shots than any existing
approach.
- Abstract(参考訳): 本稿では,新しい単語とその視覚表現を,わずか数個の単語と画像のサンプルペアから獲得する視覚基底音声モデルを提案する。
テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。
以前の研究では、digit word-imageペアの人工的な設定を使用するか、クラス毎に多数の例を使用することで、この問題を単純化している。
自然な単語イメージ対に作用するが、より少ない例、すなわち少ないショットで機能するアプローチを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
さらに,単語画像の類似性を決定するために,単語間注意機構を用いる。
この新しいモデルでは、既存のどのアプローチよりも少ないショットでより良いパフォーマンスを実現します。
関連論文リスト
- Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Direct multimodal few-shot learning of speech and images [37.039034113884085]
本稿では,いくつかの例から音声単語と画像の共有埋め込み空間を学習する直接モデルを提案する。
この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。
論文 参考訳(メタデータ) (2020-12-10T14:06:57Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z) - Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures [0.0]
小さな衛星星座は地球の陸地を毎日カバーしている。
テキストアノテーションを原画素から抽出するには、2つの依存機械学習モデルが必要である。
衛星画像キャプションにおいて,これまでで最大のベンチマークで7つのモデルを評価した。
論文 参考訳(メタデータ) (2020-01-03T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。