論文の概要: Direct multimodal few-shot learning of speech and images
- arxiv url: http://arxiv.org/abs/2012.05680v1
- Date: Thu, 10 Dec 2020 14:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:13:57.217504
- Title: Direct multimodal few-shot learning of speech and images
- Title(参考訳): 音声と画像の直接マルチモーダル数ショット学習
- Authors: Leanne Nortje, Herman Kamper
- Abstract要約: 本稿では,いくつかの例から音声単語と画像の共有埋め込み空間を学習する直接モデルを提案する。
この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。
- 参考スコア(独自算出の注目度): 37.039034113884085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose direct multimodal few-shot models that learn a shared embedding
space of spoken words and images from only a few paired examples. Imagine an
agent is shown an image along with a spoken word describing the object in the
picture, e.g. pen, book and eraser. After observing a few paired examples of
each class, the model is asked to identify the "book" in a set of unseen
pictures. Previous work used a two-step indirect approach relying on learned
unimodal representations: speech-speech and image-image comparisons are
performed across the support set of given speech-image pairs. We propose two
direct models which instead learn a single multimodal space where inputs from
different modalities are directly comparable: a multimodal triplet network
(MTriplet) and a multimodal correspondence autoencoder (MCAE). To train these
direct models, we mine speech-image pairs: the support set is used to pair up
unlabelled in-domain speech and images. In a speech-to-image digit matching
task, direct models outperform indirect models, with the MTriplet achieving the
best multimodal five-shot accuracy. We show that the improvements are due to
the combination of unsupervised and transfer learning in the direct models, and
the absence of two-step compounding errors.
- Abstract(参考訳): 音声単語と画像の共有埋め込み空間を,わずかにペア化された例から学習する,直接マルチモーダルな複数ショットモデルを提案する。
例えば、エージェントが画像のオブジェクトを記述する言葉とともに画像を表示することを想像してください。
ペン、本、消しゴム。
各クラスのいくつかのペア例を観察した後、モデルは、目に見えない一連の写真の中で「本」を識別するよう依頼される。
先行研究は、学習された一助表現に依存する2段階の間接的アプローチを用いており、音声音声と画像画像の比較は、与えられた音声画像ペアの支持セット間で行われる。
本稿では,マルチモーダル三重項ネットワーク(MTriplet)とマルチモーダル対応オートエンコーダ(MCAE)という,異なるモーダルからの入力が直接的に比較される単一マルチモーダル空間を学習する2つの直接モデルを提案する。
これらの直接モデルを訓練するために、言語画像対を抽出する: サポートセットは、未実装のドメイン内音声と画像のペアリングに使用される。
音声と画像の桁マッチングタスクでは、直接モデルは間接モデルより優れ、MTripletは最高のマルチモーダル5ショット精度を達成する。
この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。
関連論文リスト
- An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation [43.139415423751615]
写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:33:19Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - Visually grounded few-shot word acquisition with fewer shots [26.114011076658237]
そこで本研究では,少数の単語イメージ対から新しい単語とその視覚的描写を取得するモデルを提案する。
我々は、単語と画像の類似性を決定するために、単語と画像の注意機構を使用する。
この新しいモデルでは、既存のどのアプローチよりも少ないショットでより良いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-25T11:05:54Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models [69.31424345583537]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。
我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Unsupervised vs. transfer learning for multimodal one-shot matching of
speech and images [27.696096343873215]
マルチモーダルワンショット音声画像マッチングの課題について考察する。
単目的と多目的の両方のショットマッチング実験では、トランスファーラーニングが教師なしトレーニングより優れていることが判明した。
論文 参考訳(メタデータ) (2020-08-14T09:13:37Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。