論文の概要: Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2312.12816v1
- Date: Wed, 20 Dec 2023 07:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:25:10.587383
- Title: Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering
- Title(参考訳): 音声・視覚質問応答のための物体認識適応ポジティビティ学習
- Authors: Zhangbin Li, Dan Guo, Jinxing Zhou, Jing Zhang, Meng Wang
- Abstract要約: 本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
- 参考スコア(独自算出の注目度): 27.763940453394902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the Audio-Visual Question Answering (AVQA) task that
aims to answer questions derived from untrimmed audible videos. To generate
accurate answers, an AVQA model is expected to find the most informative
audio-visual clues relevant to the given questions. In this paper, we propose
to explicitly consider fine-grained visual objects in video frames
(object-level clues) and explore the multi-modal relations(i.e., the object,
audio, and question) in terms of feature interaction and model optimization.
For the former, we present an end-to-end object-oriented network that adopts a
question-conditioned clue discovery module to concentrate audio/visual
modalities on respective keywords of the question and designs a
modality-conditioned clue collection module to highlight closely associated
audio segments or visual objects. For model optimization, we propose an
object-aware adaptive-positivity learning strategy that selects the highly
semantic-matched multi-modal pair as positivity. Specifically, we design two
object-aware contrastive loss functions to identify the highly relevant
question-object pairs and audio-object pairs, respectively. These selected
pairs are constrained to have larger similarity values than the mismatched
pairs. The positivity-selecting process is adaptive as the positivity pairs
selected in each video frame may be different. These two object-aware
objectives help the model understand which objects are exactly relevant to the
question and which are making sounds. Extensive experiments on the MUSIC-AVQA
dataset demonstrate the proposed method is effective in finding favorable
audio-visual clues and also achieves new state-of-the-art question-answering
performance.
- Abstract(参考訳): 本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
本稿では,映像フレーム(オブジェクトレベルの手掛かり)における細粒度の視対象を明示的に検討し,特徴的相互作用とモデル最適化の観点でマルチモーダル関係(すなわち,対象,音声,質問)を探索する。
前者に対しては、問合せ付き手がかり探索モジュールを用いて、問合せの各キーワードに音声・視覚的モダリティを集中させ、関連する音声セグメントや視覚オブジェクトをハイライトするモダリティ付き手がかり収集モジュールを設計する。
モデル最適化のために,高度にセマンティクスにマッチするマルチモーダルペアを肯定性として選択する,オブジェクト認識型適応ポジタリティ学習戦略を提案する。
具体的には,関連する質問対象対と音声対象対を識別するために,オブジェクト認識型コントラスト損失関数を2つ設計する。
これらの選択されたペアは、ミスマッチしたペアよりも大きな類似性値を持つように制約される。
各ビデオフレームで選択された肯定ペアが異なる場合、肯定選択プロセスが適応される。
これら2つのオブジェクト認識目的は、モデルがどのオブジェクトが問題と密接に関連していて、どのオブジェクトが音を立てているかを理解するのに役立つ。
music-avqaデータセットに関する広範囲な実験により、提案手法は良好な視聴覚手がかりを見つけるのに効果的であり、また、新しい最先端の質問応答性能も実現している。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - CAT: Enhancing Multimodal Large Language Model to Answer Questions in
Dynamic Audio-Visual Scenarios [69.94398424864595]
本稿では,リッチで複雑なダイナミック・オーディオ・ビジュアル・コンポーネントからなるシナリオにおいて,質問に答えることの課題に焦点をあてる。
本稿では,MLLM(Multimodal Large Language Models)を3つの方法で拡張するCATを紹介する。
CATは混合マルチモーダルデータセットでトレーニングされており、オーディオと視覚のシナリオで直接適用することができる。
論文 参考訳(メタデータ) (2024-03-07T16:31:02Z) - Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文 参考訳(メタデータ) (2023-09-18T05:58:06Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。