論文の概要: Improved Visually Prompted Keyword Localisation in Real Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2409.06013v1
- Date: Mon, 9 Sep 2024 19:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:51:02.476034
- Title: Improved Visually Prompted Keyword Localisation in Real Low-Resource Settings
- Title(参考訳): リアルタイム低リソース環境におけるビジュアルプロンプテッドなキーワードローカライゼーションの改善
- Authors: Leanne Nortje, Dan Oneata, Herman Kamper,
- Abstract要約: 画像クエリーが与えられた場合、視覚的に誘導されるキーワードローカライゼーション(VPKL)は、音声コレクションに表示される単語の発生を見つけることを目的としている。
以前の研究では、VPKLはペア画像と非競合音声に基づいて訓練された視覚的接地音声モデルで実行可能であることが示された。
本稿では,文字起こしのないペアを自動的にマイニングするための数発の学習手法を提案する。
- 参考スコア(独自算出の注目度): 23.826000011632917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an image query, visually prompted keyword localisation (VPKL) aims to find occurrences of the depicted word in a speech collection. This can be useful when transcriptions are not available for a low-resource language (e.g. if it is unwritten). Previous work showed that VPKL can be performed with a visually grounded speech model trained on paired images and unlabelled speech. But all experiments were done on English. Moreover, transcriptions were used to get positive and negative pairs for the contrastive loss. This paper introduces a few-shot learning scheme to mine pairs automatically without transcriptions. On English, this results in only a small drop in performance. We also - for the first time - consider VPKL on a real low-resource language, Yoruba. While scores are reasonable, here we see a bigger drop in performance compared to using ground truth pairs because the mining is less accurate in Yoruba.
- Abstract(参考訳): 画像クエリーが与えられた場合、視覚的に誘導されるキーワードローカライゼーション(VPKL)は、音声収集において、表現された単語の発生を見つけることを目的としている。
これは、低リソース言語(例えば、書かれていない場合)で書き起こしができない場合に便利である。
以前の研究では、VPKLはペア画像と非競合音声に基づいて訓練された視覚的接地音声モデルで実行可能であることが示された。
しかし、全ての実験は英語で行われた。
さらに、対照的な損失に対して正と負のペアを得るために転写が使用された。
本稿では,文字起こしのないペアを自動的にマイニングするための数発の学習手法を提案する。
英語では、パフォーマンスはわずかに低下する。
また、我々は初めて、VPKLを真の低リソース言語であるYorubaについて検討しました。
スコアは妥当だが、ここでは、ヨルバでは採掘が正確ではないため、地上の真理ペアを使用するよりもパフォーマンスが大幅に低下している。
関連論文リスト
- Visually Grounded Speech Models for Low-resource Languages and Cognitive Modelling [4.340338299803563]
画像を用いた音声中のキーワードの検出とローカライズを行うために,視覚的に誘導されるキーワードローカライゼーションというタスクを導入する。
本稿では,Yorubaのような低リソース言語に対する数ショット学習シナリオにおいて,VGSモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-09-03T17:59:50Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - WACO: Word-Aligned Contrastive Learning for Speech Translation [11.67083845641806]
音声翻訳(E2E)は、ソース音声を直接ターゲットテキストに変換することを目的としている。
既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。
極めて低音源の音声からテキストへの翻訳をシンプルかつ効果的に行うためのワードアラインド・コントラスト学習(WACO)を提案する。
論文 参考訳(メタデータ) (2022-12-19T10:49:35Z) - YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword
localisation through visual grounding [21.51901080054713]
ナイジェリアで話されている真の低リソース言語であるYorub'aで、6kのFlickr画像のオーディオキャプションのデータセットを新たにリリースしました。
我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yorub'a 音声とペア付けする。
これにより、言語間のキーワードのローカライゼーションが可能となり、Yorub'a言語で書かれた英語クエリが検出され、位置される。
論文 参考訳(メタデータ) (2022-10-10T11:58:10Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。