論文の概要: SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering
- arxiv url: http://arxiv.org/abs/2504.01049v1
- Date: Tue, 01 Apr 2025 07:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:42.921997
- Title: SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering
- Title(参考訳): SViQA: テキストレス視覚質問応答のための統一音声ビジョンマルチモーダルモデル
- Authors: Bingxin Li,
- Abstract要約: テキストの書き起こしなしに音声質問を処理する統合音声ビジョンモデルであるSViQAを紹介する。
LLaVAアーキテクチャに基づいて、我々のフレームワークは2つの重要なイノベーションを通じて聴覚と視覚のモダリティを橋渡しします。
SBVQAベンチマークの大規模な実験結果は、提案したSViQAの最先端性能を実証している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multimodal models integrating speech and vision hold significant potential for advancing human-computer interaction, particularly in Speech-Based Visual Question Answering (SBVQA) where spoken questions about images require direct audio-visual understanding. Existing approaches predominantly focus on text-visual integration, leaving speech-visual modality gaps underexplored due to their inherent heterogeneity. To this end, we introduce SViQA, a unified speech-vision model that directly processes spoken questions without text transcription. Building upon the LLaVA architecture, our framework bridges auditory and visual modalities through two key innovations: (1) end-to-end speech feature extraction eliminating intermediate text conversion, and (2) cross-modal alignment optimization enabling effective fusion of speech signals with visual content. Extensive experimental results on the SBVQA benchmark demonstrate the proposed SViQA's state-of-the-art performance, achieving 75.62% accuracy, and competitive multimodal generalization. Leveraging speech-text mixed input boosts performance to 78.85%, a 3.23% improvement over pure speech input, highlighting SViQA's enhanced robustness and effective cross-modal attention alignment.
- Abstract(参考訳): 音声と視覚を統合したマルチモーダルモデルは、特に音声と視覚の直接理解を必要とする音声ベースの視覚質問回答(SBVQA)において、人間とコンピュータの相互作用を前進させる大きな可能性を秘めている。
既存のアプローチは、主にテキストと視覚の統合に焦点を合わせ、音声と視覚のモダリティのギャップは、その固有の不均一性のために探索されていない。
そこで本研究では,テキストの書き起こしなしに直接音声質問を処理する統合音声ビジョンモデルであるSViQAを紹介する。
LLaVAアーキテクチャを基盤として,(1)中間テキスト変換を除去するエンドツーエンドの音声特徴抽出,(2)音声信号と視覚的コンテンツを効果的に融合させるクロスモーダルアライメント最適化という2つの重要な革新を通じて,聴覚と視覚のモダリティを橋渡しする。
SBVQAベンチマークの大規模な実験結果は、提案されたSViQAの最先端性能を示し、75.62%の精度と競合するマルチモーダル一般化を達成した。
音声とテキストの混合入力を活用することで、パフォーマンスが78.85%向上し、純粋な音声入力よりも3.23%向上し、SViQAの堅牢性と効果的な相互注意アライメントが強調される。
関連論文リスト
- VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。
画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。