論文の概要: NAAQA: A Neural Architecture for Acoustic Question Answering
- arxiv url: http://arxiv.org/abs/2106.06147v1
- Date: Fri, 11 Jun 2021 03:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:25:37.189736
- Title: NAAQA: A Neural Architecture for Acoustic Question Answering
- Title(参考訳): NAAQA: 音響質問応答のためのニューラルネットワーク
- Authors: Jerome Abdelnour, Jean Rouat, Giampiero Salvi
- Abstract要約: AQAタスクの目的は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
NAAQAは従来のVQAモデルの約7倍のパラメータでAQAタスクの精度の91.6%を達成する。
- 参考スコア(独自算出の注目度): 8.368543987898732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of the Acoustic Question Answering (AQA) task is to answer a
free-form text question about the content of an acoustic scene. It was inspired
by the Visual Question Answering (VQA) task. In this paper, based on the
previously introduced CLEAR dataset, we propose a new benchmark for AQA that
emphasizes the specific challenges of acoustic inputs, e.g. variable duration
scenes. We also introduce NAAQA, a neural architecture that leverages specific
properties of acoustic inputs. The usage of time and frequency 1D convolutions
to process 2D spectro-temporal representations of acoustic content shows
promising results and enables reductions in model complexity. NAAQA achieves
91.6% of accuracy on the AQA task with about 7 times fewer parameters than the
previously explored VQA model. We provide a detailed analysis of the results
for the different question types. The effectiveness of coordinate maps in this
acoustic context was also studied and we show that time coordinate maps augment
temporal localization capabilities which enhance performance of the network by
about 17 percentage points.
- Abstract(参考訳): aqa(a acoustic question answering)タスクの目標は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
VQA(Visual Question Answering)タスクにインスパイアされたものだ。
本稿では,従来導入されていたCLEARデータセットに基づいて,音響入力の特定の課題を強調するAQAの新しいベンチマークを提案する。
一定期間のシーン。
また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
時間と周波数の1次元畳み込みを用いた音響コンテンツの2次元分光時間表現は、有望な結果を示し、モデルの複雑さの低減を可能にする。
NAAQAは従来のVQAモデルの約7倍のパラメータでAQAタスクの精度の91.6%を達成する。
本報告では,異なる質問タイプに対する結果の詳細な分析を行う。
この音響的文脈における座標マップの有効性についても検討し、時間座標マップは時間的局所化能力を高め、ネットワークの性能を約17ポイント向上させることを示した。
関連論文リスト
- Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。
実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Attention-Based Methods For Audio Question Answering [16.82832919748399]
本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
論文 参考訳(メタデータ) (2023-05-31T12:00:51Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - ASQ: Automatically Generating Question-Answer Pairs using AMRs [1.0878040851638]
AMR(Abstract Meaning Representation)を用いて,質問や回答を自動的に文から抽出するツールASQを紹介する。
AMR 2.0データからASQが生成した出力の質的評価は、問合せ対が自然で有効であることを示す。
私たちはこのツールと結果を公開して、他の人が使用して構築できるようにするつもりです。
論文 参考訳(メタデータ) (2021-05-20T20:38:05Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。