Fugu-MT 論文翻訳(概要): Fine-Grained Grounding for Multimodal Speech Recognition

論文の概要: Fine-Grained Grounding for Multimodal Speech Recognition

arxiv url: http://arxiv.org/abs/2010.02384v1
Date: Mon, 5 Oct 2020 23:06:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 21:39:37.776185
Title: Fine-Grained Grounding for Multimodal Speech Recognition
Title（参考訳）: マルチモーダル音声認識のためのファイングラウンディング
Authors: Tejas Srinivasan, Ramon Sanabria, Florian Metze and Desmond Elliott
Abstract要約: 本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。 Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
参考スコア（独自算出の注目度）: 49.01826387664443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal automatic speech recognition systems integrate information from images to improve speech recognition quality, by grounding the speech in the visual context. While visual signals have been shown to be useful for recovering entities that have been masked in the audio, these models should be capable of recovering a broader range of word types. Existing systems rely on global visual features that represent the entire image, but localizing the relevant regions of the image will make it possible to recover a larger set of words, such as adjectives and verbs. In this paper, we propose a model that uses finer-grained visual information from different parts of the image, using automatic object proposals. In experiments on the Flickr8K Audio Captions Corpus, we find that our model improves over approaches that use global visual features, that the proposals enable the model to recover entities and other related words, such as adjectives, and that improvements are due to the model's ability to localize the correct proposals.
Abstract（参考訳）: マルチモーダル自動音声認識システムは,視覚的文脈における音声の基盤化により,画像からの情報を統合して音声認識品質を向上させる。視覚信号は、音声に隠されたエンティティを復元するのに有用であることが示されているが、これらのモデルは幅広い種類の単語を復元することができる。既存のシステムは、画像全体を表すグローバルなビジュアル機能に依存しているが、画像の関連領域をローカライズすることで、形容詞や動詞など、より大きな単語セットを復元することができる。本稿では,画像の異なる部分からのきめ細かい視覚情報を,オブジェクトの自動提案を用いて利用するモデルを提案する。 flickr8k音声キャプションコーパスを用いた実験では,我々のモデルが,グローバルな視覚機能を用いたアプローチよりも改良されていること,提案手法によって,形容詞などのエンティティや関連語を復元できること,適切な提案をローカライズするモデルの能力が改善されていること,などが分かりました。

関連論文リスト

Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
Late fusion ensembles for speech recognition on diverse input audio representations [0.0]
音声音声の多種多様な表現について検討し、E-Branchformerモデルの後期融合アンサンブルの性能に与える影響について検討する。我々は、同等のテクニックでトレーニングされた最先端のモデルに対して、1%から14%$の改善が依然として達成可能であることを示す。
論文参考訳（メタデータ） (2024-12-01T10:19:24Z)
VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。 VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文参考訳（メタデータ） (2024-10-01T16:06:02Z)
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2024-09-19T00:08:28Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。視覚音声単位を用いた新しい学習手法を提案する。我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2024-01-18T08:46:02Z)
VILAS: Exploring the Effects of Vision and Language Context in Automatic Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文参考訳（メタデータ） (2023-05-31T16:01:20Z)
From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。 VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文参考訳（メタデータ） (2021-08-22T07:56:24Z)
Looking Enhances Listening: Recovering Missing Speech Using Images [40.616935661628155]
本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。
論文参考訳（メタデータ） (2020-02-13T17:12:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。