論文の概要: ViLaS: Integrating Vision and Language into Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.19972v1
- Date: Wed, 31 May 2023 16:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:32:50.020492
- Title: ViLaS: Integrating Vision and Language into Automatic Speech Recognition
- Title(参考訳): ViLaS:視覚と言語を自動音声認識に統合する
- Authors: Minglun Han and Feilong Chen and Ziyi Ni and Linghui Meng and Jing Shi
and Shuang Xu and Bo Xu
- Abstract要約: 本稿では,視覚と言語を同時にあるいは分離して統合し,入力音声の認識を支援するマルチモーダルASRモデルを提案する。
我々は、公開Flickr8Kと自作VSDialデータセットに関する実証的な結果を報告し、クロスモーダル融合方式を調査し、VSDial上での微粒なクロスモーダルアライメントを解析した。
- 参考スコア(独自算出の注目度): 20.797991882602687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Employing additional multimodal information to improve automatic speech
recognition (ASR) performance has been proven effective in previous works.
However, many of these works focus only on the utilization of visual cues from
human lip motion. In fact, context-dependent visual and linguistic cues can
also be used to improve ASR performance in many scenarios. In this paper, we
first propose a multimodal ASR model (ViLaS) that can simultaneously or
separately integrate visual and linguistic cues to help recognize the input
speech, and introduce a training strategy that can improve performance in
modal-incomplete test scenarios. Then, we create a multimodal ASR dataset
(VSDial) with visual and linguistic cues to explore the effects of integrating
vision and language. Finally, we report empirical results on the public
Flickr8K and self-constructed VSDial datasets, investigate cross-modal fusion
schemes, and analyze fine-grained cross-modal alignment on VSDial.
- Abstract(参考訳): 自動音声認識(ASR)の性能向上のために追加のマルチモーダル情報を利用することは,これまでも有効であった。
しかし、これらの作品の多くは、人間の唇の動きからの視覚手がかりの利用にのみ焦点が当てられている。
実際、コンテキスト依存の視覚的および言語的手がかりは、多くのシナリオでASRのパフォーマンスを改善するためにも使用できる。
本稿では,視覚と言語を同時にあるいは個別に統合して入力音声の認識を支援するマルチモーダルASRモデル(ViLaS)を提案し,モーダル不完全テストシナリオの性能向上のためのトレーニング戦略を提案する。
次に,視覚と言語を統合したマルチモーダルASRデータセット(VSDial)を作成し,視覚と言語の統合の効果について検討する。
最後に、公開Flickr8Kおよび自己構築VSDialデータセットに関する実験結果を報告し、相互融合スキームを調査し、VSDial上での微粒なクロスモーダルアライメントを分析する。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。