Fugu-MT 論文翻訳(概要): NAAQA: A Neural Architecture for Acoustic Question Answering

論文の概要: NAAQA: A Neural Architecture for Acoustic Question Answering

arxiv url: http://arxiv.org/abs/2106.06147v1
Date: Fri, 11 Jun 2021 03:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-14 14:25:37.189736
Title: NAAQA: A Neural Architecture for Acoustic Question Answering
Title（参考訳）: NAAQA: 音響質問応答のためのニューラルネットワーク
Authors: Jerome Abdelnour, Jean Rouat, Giampiero Salvi
Abstract要約: AQAタスクの目的は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。 NAAQAは従来のVQAモデルの約7倍のパラメータでAQAタスクの精度の91.6%を達成する。
参考スコア（独自算出の注目度）: 8.368543987898732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of the Acoustic Question Answering (AQA) task is to answer a free-form text question about the content of an acoustic scene. It was inspired by the Visual Question Answering (VQA) task. In this paper, based on the previously introduced CLEAR dataset, we propose a new benchmark for AQA that emphasizes the specific challenges of acoustic inputs, e.g. variable duration scenes. We also introduce NAAQA, a neural architecture that leverages specific properties of acoustic inputs. The usage of time and frequency 1D convolutions to process 2D spectro-temporal representations of acoustic content shows promising results and enables reductions in model complexity. NAAQA achieves 91.6% of accuracy on the AQA task with about 7 times fewer parameters than the previously explored VQA model. We provide a detailed analysis of the results for the different question types. The effectiveness of coordinate maps in this acoustic context was also studied and we show that time coordinate maps augment temporal localization capabilities which enhance performance of the network by about 17 percentage points.
Abstract（参考訳）: aqa(a acoustic question answering)タスクの目標は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。 VQA(Visual Question Answering)タスクにインスパイアされたものだ。本稿では,従来導入されていたCLEARデータセットに基づいて,音響入力の特定の課題を強調するAQAの新しいベンチマークを提案する。一定期間のシーン。また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。時間と周波数の1次元畳み込みを用いた音響コンテンツの2次元分光時間表現は、有望な結果を示し、モデルの複雑さの低減を可能にする。 NAAQAは従来のVQAモデルの約7倍のパラメータでAQAタスクの精度の91.6%を達成する。本報告では,異なる質問タイプに対する結果の詳細な分析を行う。この音響的文脈における座標マップの有効性についても検討し、時間座標マップは時間的局所化能力を高め、ネットワークの性能を約17ポイント向上させることを示した。

関連論文リスト

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (2025-05-12T09:04:16Z)
Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文参考訳（メタデータ） (2024-04-18T09:16:02Z)
AQUALLM: Audio Question Answering Data Generation Using Large Language Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。 AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文参考訳（メタデータ） (2023-12-28T20:01:27Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Attention-Based Methods For Audio Question Answering [16.82832919748399]
本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
論文参考訳（メタデータ） (2023-05-31T12:00:51Z)
Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。 1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文参考訳（メタデータ） (2023-03-09T06:58:29Z)
Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。 A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文参考訳（メタデータ） (2022-03-26T13:03:42Z)
DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-09T17:46:22Z)
ASQ: Automatically Generating Question-Answer Pairs using AMRs [1.0878040851638]
AMR(Abstract Meaning Representation)を用いて,質問や回答を自動的に文から抽出するツールASQを紹介する。 AMR 2.0データからASQが生成した出力の質的評価は、問合せ対が自然で有効であることを示す。私たちはこのツールと結果を公開して、他の人が使用して構築できるようにするつもりです。
論文参考訳（メタデータ） (2021-05-20T20:38:05Z)
Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。 A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文参考訳（メタデータ） (2020-10-23T08:34:52Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。