論文の概要: CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2405.07451v1
- Date: Mon, 13 May 2024 03:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:54:35.757648
- Title: CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering
- Title(参考訳): CLIP-Powered TASS:オーディオ・ビジュアル質問応答のためのターゲット対応シングルストリームネットワーク
- Authors: Yuanyuan Jiang, Jianqin Yin,
- Abstract要約: 本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 6.719652962434731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision-language pretrained models (VLMs) excel in various multimodal understanding tasks, their potential in fine-grained audio-visual reasoning, particularly for audio-visual question answering (AVQA), remains largely unexplored. AVQA presents specific challenges for VLMs due to the requirement of visual understanding at the region level and seamless integration with audio modality. Previous VLM-based AVQA methods merely used CLIP as a feature encoder but underutilized its knowledge, and mistreated audio and video as separate entities in a dual-stream framework as most AVQA methods. This paper proposes a new CLIP-powered target-aware single-stream (TASS) network for AVQA using the image-text matching knowledge of the pretrained model through the audio-visual matching characteristic of nature. It consists of two key components: the target-aware spatial grounding module (TSG+) and the single-stream joint temporal grounding module (JTG). Specifically, we propose a TSG+ module to transfer the image-text matching knowledge from CLIP models to our region-text matching process without corresponding ground-truth labels. Moreover, unlike previous separate dual-stream networks that still required an additional audio-visual fusion module, JTG unifies audio-visual fusion and question-aware temporal grounding in a simplified single-stream architecture. It treats audio and video as a cohesive entity and further extends the pretrained image-text knowledge to audio-text matching by preserving their temporal correlation with our proposed cross-modal synchrony (CMS) loss. Extensive experiments conducted on the MUSIC-AVQA benchmark verified the effectiveness of our proposed method over existing state-of-the-art methods.
- Abstract(参考訳): 視覚言語事前学習モデル(VLM)は、様々なマルチモーダル理解タスクにおいて優れているが、特に音声-視覚的質問応答(AVQA)において、細粒度の音声-視覚的推論(英語版)においてその可能性はほとんど未解明のままである。
AVQAは、領域レベルでの視覚的理解とオーディオモダリティとのシームレスな統合が要求されるため、VLMに固有の課題を提示する。
以前のVLMベースのAVQA手法では、CLIPを機能エンコーダとしてのみ使用していたが、その知識を過小評価し、オーディオとビデオは、ほとんどのAVQA手法として、デュアルストリームフレームワーク内の別個のエンティティとして扱われていた。
本稿では,AVQAの音声・視覚的マッチング特性を用いて,事前学習したモデルの画像・テキストマッチング知識を用いて,AVQAのための新しいCLIP方式のターゲット・アウェア・シングルストリーム(TASS)ネットワークを提案する。
ターゲット認識空間接地モジュール(TSG+)と単一ストリーム関節時間接地モジュール(JTG)の2つの重要な構成要素から構成される。
具体的には,画像テキストマッチングの知識をCLIPモデルから領域テキストマッチングプロセスに転送するTSG+モジュールを提案する。
さらに、オーディオ-視覚融合モジュールの追加を必要とする以前の分離されたデュアルストリームネットワークとは異なり、JTGは単純化された単一ストリームアーキテクチャにおいて、音声-視覚融合と質問-認識の時間的グラウンドを統一する。
音声と映像を凝集体として扱うとともに、提案したクロスモーダル同期(CMS)損失と時間的相関を保ち、事前訓練された画像テキスト知識を音声テキストマッチングに拡張する。
MUSIC-AVQAベンチマークにより,提案手法の有効性を実証した。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios [7.938379811969159]
本稿では,音声-視覚的質問応答(AVQA)のための新たな目標認識型共同時間グラウンドネットワークを提案する。
ターゲット認識型空間接地モジュール(TSG)と単一ストリーム型音声視覚時空間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
JTGは、音声と視覚の融合と質問認識の時間的接地を、より単純な単一ストリームアーキテクチャで一つのモジュールに組み込む。
論文 参考訳(メタデータ) (2023-05-21T08:21:36Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。