論文の概要: ViLaS: Integrating Vision and Language into Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.19972v1
- Date: Wed, 31 May 2023 16:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:32:50.020492
- Title: ViLaS: Integrating Vision and Language into Automatic Speech Recognition
- Title(参考訳): ViLaS:視覚と言語を自動音声認識に統合する
- Authors: Minglun Han and Feilong Chen and Ziyi Ni and Linghui Meng and Jing Shi
and Shuang Xu and Bo Xu
- Abstract要約: 本稿では,視覚と言語を同時にあるいは分離して統合し,入力音声の認識を支援するマルチモーダルASRモデルを提案する。
我々は、公開Flickr8Kと自作VSDialデータセットに関する実証的な結果を報告し、クロスモーダル融合方式を調査し、VSDial上での微粒なクロスモーダルアライメントを解析した。
- 参考スコア(独自算出の注目度): 20.797991882602687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Employing additional multimodal information to improve automatic speech
recognition (ASR) performance has been proven effective in previous works.
However, many of these works focus only on the utilization of visual cues from
human lip motion. In fact, context-dependent visual and linguistic cues can
also be used to improve ASR performance in many scenarios. In this paper, we
first propose a multimodal ASR model (ViLaS) that can simultaneously or
separately integrate visual and linguistic cues to help recognize the input
speech, and introduce a training strategy that can improve performance in
modal-incomplete test scenarios. Then, we create a multimodal ASR dataset
(VSDial) with visual and linguistic cues to explore the effects of integrating
vision and language. Finally, we report empirical results on the public
Flickr8K and self-constructed VSDial datasets, investigate cross-modal fusion
schemes, and analyze fine-grained cross-modal alignment on VSDial.
- Abstract(参考訳): 自動音声認識(ASR)の性能向上のために追加のマルチモーダル情報を利用することは,これまでも有効であった。
しかし、これらの作品の多くは、人間の唇の動きからの視覚手がかりの利用にのみ焦点が当てられている。
実際、コンテキスト依存の視覚的および言語的手がかりは、多くのシナリオでASRのパフォーマンスを改善するためにも使用できる。
本稿では,視覚と言語を同時にあるいは個別に統合して入力音声の認識を支援するマルチモーダルASRモデル(ViLaS)を提案し,モーダル不完全テストシナリオの性能向上のためのトレーニング戦略を提案する。
次に,視覚と言語を統合したマルチモーダルASRデータセット(VSDial)を作成し,視覚と言語の統合の効果について検討する。
最後に、公開Flickr8Kおよび自己構築VSDialデータセットに関する実験結果を報告し、相互融合スキームを調査し、VSDial上での微粒なクロスモーダルアライメントを分析する。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文 参考訳(メタデータ) (2023-05-16T06:41:25Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。