Fugu-MT 論文翻訳(概要): SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering

論文の概要: SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering

arxiv url: http://arxiv.org/abs/2411.04933v2
Date: Fri, 08 Nov 2024 04:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.475909
Title: SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering
Title（参考訳）: SaSR-Net:オーディオ・ビジュアル質問応答を支援するソース・アウェア・セマンティック表現ネットワーク
Authors: Tianyu Yang, Yiyang Nan, Lisen Dai, Zhenwen Liang, Yapeng Tian, Xiangliang Zhang,
Abstract要約: 本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。 SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。 Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
参考スコア（独自算出の注目度）: 53.00674706030977
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-Visual Question Answering (AVQA) is a challenging task that involves answering questions based on both auditory and visual information in videos. A significant challenge is interpreting complex multi-modal scenes, which include both visual objects and sound sources, and connecting them to the given question. In this paper, we introduce the Source-aware Semantic Representation Network (SaSR-Net), a novel model designed for AVQA. SaSR-Net utilizes source-wise learnable tokens to efficiently capture and align audio-visual elements with the corresponding question. It streamlines the fusion of audio and visual information using spatial and temporal attention mechanisms to identify answers in multi-modal scenes. Extensive experiments on the Music-AVQA and AVQA-Yang datasets show that SaSR-Net outperforms state-of-the-art AVQA methods.
Abstract（参考訳）: AVQA(Audio-Visual Question Answering)は、ビデオにおける聴覚情報と視覚情報の両方に基づいて質問に答えることを伴う課題である。重要な課題は、視覚オブジェクトと音源の両方を含む複雑なマルチモーダルシーンを解釈し、それらを与えられた質問に接続することである。本稿では,AVQA 向けに設計された新しいモデルである Source-Aware Semantic Representation Network (SaSR-Net) を紹介する。 SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。空間的および時間的注意機構を用いて音声と視覚情報の融合を合理化し、マルチモーダルシーンでの回答を識別する。 Music-AVQAとAVQA-Yangデータセットの大規模な実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。

関連論文リスト

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering [13.757806950813995]
AVQA(Audio-Visual Question Answering)は、自然言語の質問に答えるために、ビデオ内の音声、視覚、テキストの情報を共同で推論する必要がある、困難なマルチモーダルタスクである。本稿では,クエリ誘導型空間-テンポラル-周波数相互作用法を提案する。提案手法は,既存のAudio QA, Visual QA, Video QA, AVQAアプローチに対して, 大幅な性能向上を実現する。
論文参考訳（メタデータ） (2026-01-27T17:24:32Z)
Multi-Modal Scene Graph with Kolmogorov-Arnold Experts for Audio-Visual Question Answering [47.06208819547327]
Kolmogorov-Arnold Expert Network for Audio-Visual Question Answering (SHRIKE) を用いたマルチモーダルシーングラフを提案する。この課題は、映像シーンから情報を抽出し、融合させることによって、人間の推論を模倣することを目的としている。 MUSIC-AVQA と MUSIC-AVQA v2 のベンチマークを用いて,そのモデルの評価を行った。
論文参考訳（メタデータ） (2025-11-28T16:03:23Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2024-09-19T00:08:28Z)
Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文参考訳（メタデータ） (2024-07-30T09:41:37Z)
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文参考訳（メタデータ） (2024-05-13T03:25:15Z)
CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios [69.94398424864595]
本稿では,リッチで複雑なダイナミック・オーディオ・ビジュアル・コンポーネントからなるシナリオにおいて,質問に答えることの課題に焦点をあてる。本稿では,MLLM(Multimodal Large Language Models)を3つの方法で拡張するCATを紹介する。 CATは混合マルチモーダルデータセットでトレーニングされており、オーディオと視覚のシナリオで直接適用することができる。
論文参考訳（メタデータ） (2024-03-07T16:31:02Z)
Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering [27.763940453394902]
本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
論文参考訳（メタデータ） (2023-12-20T07:36:38Z)
CAD -- Contextual Multi-modal Alignment for Dynamic AVQA [20.155816093525374]
既存のAVQA手法には2つの大きな欠点がある。提案するCADネットワークは,最先端手法の全体的な性能を平均9.4%向上させる。
論文参考訳（メタデータ） (2023-10-25T16:40:09Z)
AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文参考訳（メタデータ） (2022-06-15T17:33:19Z)
Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。 A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文参考訳（メタデータ） (2022-03-26T13:03:42Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。