論文の概要: NAAQA: A Neural Architecture for Acoustic Question Answering
- arxiv url: http://arxiv.org/abs/2106.06147v3
- Date: Fri, 12 Jan 2024 14:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:51:58.590829
- Title: NAAQA: A Neural Architecture for Acoustic Question Answering
- Title(参考訳): NAAQA: 音響質問応答のためのニューラルネットワーク
- Authors: Jerome Abdelnour, Jean Rouat, Giampiero Salvi
- Abstract要約: AQAタスクの目的は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
音響入力の特定の課題を強調する新しいベンチマークであるCLEAR2を提案する。
また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
- 参考スコア(独自算出の注目度): 8.364707318181193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of the Acoustic Question Answering (AQA) task is to answer a
free-form text question about the content of an acoustic scene. It was inspired
by the Visual Question Answering (VQA) task. In this paper, based on the
previously introduced CLEAR dataset, we propose a new benchmark for AQA, namely
CLEAR2, that emphasizes the specific challenges of acoustic inputs. These
include handling of variable duration scenes, and scenes built with elementary
sounds that differ between training and test set. We also introduce NAAQA, a
neural architecture that leverages specific properties of acoustic inputs. The
use of 1D convolutions in time and frequency to process 2D spectro-temporal
representations of acoustic content shows promising results and enables
reductions in model complexity. We show that time coordinate maps augment
temporal localization capabilities which enhance performance of the network by
~17 percentage points. On the other hand, frequency coordinate maps have little
influence on this task. NAAQA achieves 79.5% of accuracy on the AQA task with
~4 times fewer parameters than the previously explored VQA model. We evaluate
the perfomance of NAAQA on an independent data set reconstructed from DAQA. We
also test the addition of a MALiMo module in our model on both CLEAR2 and DAQA.
We provide a detailed analysis of the results for the different question types.
We release the code to produce CLEAR2 as well as NAAQA to foster research in
this newly emerging machine learning task.
- Abstract(参考訳): aqa(a acoustic question answering)タスクの目標は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
VQA(Visual Question Answering)タスクにインスパイアされたものだ。
本稿では,従来導入されていたCLEARデータセットに基づいて,音響入力の具体的な課題を強調するAQA,すなわちCLEAR2のベンチマークを提案する。
これには、可変時間シーンの処理や、トレーニングとテストセットの異なる基本音で構築されたシーンが含まれる。
また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
1次元畳み込みの時間と周波数による音響コンテンツの2次元分光時間表現の処理は、有望な結果を示し、モデルの複雑さの低減を可能にする。
時間座標マップは,ネットワークの性能を約17ポイント向上する時間的局所化機能を増強することを示した。
一方、周波数座標写像はこの課題にはほとんど影響を与えない。
NAAQAは以前のVQAモデルの約4倍のパラメータで、AQAタスクで79.5%の精度を達成する。
DAQAから再構成した独立データセットを用いてNAAQAの持続性を評価する。
また、CLEAR2とDAQAの両方のモデルでMALiMoモジュールの追加をテストする。
本報告では,異なる質問タイプに対する結果の詳細な分析を行う。
我々は、新たな機械学習タスクの研究を促進するために、CLEAR2とNAAQAを生成するコードをリリースした。
関連論文リスト
- Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。
実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Attention-Based Methods For Audio Question Answering [16.82832919748399]
本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
論文 参考訳(メタデータ) (2023-05-31T12:00:51Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - ASQ: Automatically Generating Question-Answer Pairs using AMRs [1.0878040851638]
AMR(Abstract Meaning Representation)を用いて,質問や回答を自動的に文から抽出するツールASQを紹介する。
AMR 2.0データからASQが生成した出力の質的評価は、問合せ対が自然で有効であることを示す。
私たちはこのツールと結果を公開して、他の人が使用して構築できるようにするつもりです。
論文 参考訳(メタデータ) (2021-05-20T20:38:05Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。