論文の概要: VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.19972v2
- Date: Mon, 18 Dec 2023 12:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:18:45.108557
- Title: VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition
- Title(参考訳): vilas:自動音声認識における視覚と言語コンテキストの影響を探る
- Authors: Ziyi Ni and Minglun Han and Feilong Chen and Linghui Meng and Jing Shi
and Pin Lv and Bo Xu
- Abstract要約: ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
- 参考スコア(独自算出の注目度): 18.19998336526969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing automatic speech recognition (ASR) performance by leveraging
additional multimodal information has shown promising results in previous
studies. However, most of these works have primarily focused on utilizing
visual cues derived from human lip motions. In fact, context-dependent visual
and linguistic cues can also benefit in many scenarios. In this paper, we first
propose ViLaS (Vision and Language into Automatic Speech Recognition), a novel
multimodal ASR model based on the continuous integrate-and-fire (CIF)
mechanism, which can integrate visual and textual context simultaneously or
separately, to facilitate speech recognition. Next, we introduce an effective
training strategy that improves performance in modal-incomplete test scenarios.
Then, to explore the effects of integrating vision and language, we create
VSDial, a multimodal ASR dataset with multimodal context cues in both Chinese
and English versions. Finally, empirical results are reported on the public
Flickr8K and self-constructed VSDial datasets. We explore various cross-modal
fusion schemes, analyze fine-grained crossmodal alignment on VSDial, and
provide insights into the effects of integrating multimodal information on
speech recognition.
- Abstract(参考訳): 追加のマルチモーダル情報を活用した自動音声認識(ASR)の性能向上は,従来の研究で有望な結果を示した。
しかし、これらの作品の多くは、主に人間の唇の動きに由来する視覚手がかりの利用に焦点が当てられている。
実際、コンテキスト依存の視覚的および言語的手がかりは多くのシナリオで有用である。
本稿では,視覚とテキストのコンテキストを同時にあるいは別々に統合し,音声認識を容易にする,連続統合・火災(CIF)機構に基づく新しいマルチモーダルASRモデルであるViLaS(Vision and Language into Automatic Speech Recognition)を提案する。
次に,モード不完全テストシナリオの性能を向上させる効果的なトレーニング戦略を提案する。
そして、視覚と言語の統合効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを作成します。
最後に、公開Flickr8Kと自作VSDialデータセットで実証結果が報告されている。
様々なクロスモーダル融合スキームを探索し,vsdialにおける細粒度クロスモーダルアライメントを分析し,マルチモーダル情報の統合が音声認識に与える影響について考察する。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。