論文の概要: Attention-Based Methods For Audio Question Answering
- arxiv url: http://arxiv.org/abs/2305.19769v1
- Date: Wed, 31 May 2023 12:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:49:09.214557
- Title: Attention-Based Methods For Audio Question Answering
- Title(参考訳): 注意に基づく音声質問応答手法
- Authors: Parthasaarathy Sudarsanam, Tuomas Virtanen
- Abstract要約: 本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
- 参考スコア(独自算出の注目度): 16.82832919748399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio question answering (AQA) is the task of producing natural language
answers when a system is provided with audio and natural language questions. In
this paper, we propose neural network architectures based on self-attention and
cross-attention for the AQA task. The self-attention layers extract powerful
audio and textual representations. The cross-attention maps audio features that
are relevant to the textual features to produce answers. All our models are
trained on the recently proposed Clotho-AQA dataset for both binary yes/no
questions and single-word answer questions. Our results clearly show
improvement over the reference method reported in the original paper. On the
yes/no binary classification task, our proposed model achieves an accuracy of
68.3% compared to 62.7% in the reference model. For the single-word answers
multiclass classifier, our model produces a top-1 and top-5 accuracy of 57.9%
and 99.8% compared to 54.2% and 93.7% in the reference model respectively. We
further discuss some of the challenges in the Clotho-AQA dataset such as the
presence of the same answer word in multiple tenses, singular and plural forms,
and the presence of specific and generic answers to the same question. We
address these issues and present a revised version of the dataset.
- Abstract(参考訳): AQA(Audio Question answering)は、音声や自然言語の質問をシステムが提供するときに、自然言語の回答を生成するタスクである。
本稿では,AQAタスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
自己注意層は強力な音声およびテキスト表現を抽出する。
クロスアテンションは、回答を生成するためのテキスト機能に関連するオーディオ機能をマップする。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
本結果は,本論文で報告した基準法よりも明らかに改善されている。
yes/noバイナリ分類タスクでは,基準モデルの62.7%に対して68.3%の精度が得られた。
単語回答マルチクラス分類器では, 基準モデルの54.2%, 93.7%に対して, 上位1と上位5の精度が57.9%, 99.8%であった。
さらに,同一の回答単語が複数時制で存在すること,単数および複数形式であること,同一質問に対する固有および総称的回答の存在など,クロス・アカデータセットの課題についても論じた。
これらの問題に対処し、データセットの改訂版を提示する。
関連論文リスト
- SubjECTive-QA: Measuring Subjectivity in Earnings Call Transcripts' QA Through Six-Dimensional Feature Analysis [4.368712652579087]
SubjECTive-QAはEarnings Call Transcripts' (ECTs)上の人間の注釈付きデータセットである
データセットには、Assertive, Cautious, Optimistic, Specific, Clear, Relevantという6つの機能からなる、長期QAペア用の49,446のアノテーションが含まれている。
以上の結果から,Llama-3-70b-Chatと同様の重み付きF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-28T01:17:34Z) - GSQA: An End-to-End Model for Generative Spoken Question Answering [54.418723701886115]
本稿では,システムに抽象的推論を強制するGSQA(Generative Spoken Question Answering)モデルを提案する。
本モデルでは, 抽出QAデータセットにおいて, 従来の抽出モデルよりも3%上回っている。
我々のGSQAモデルは、幅広い質問に一般化する可能性を示し、それによって、抽象的QAの音声質問応答能力をさらに拡張する。
論文 参考訳(メタデータ) (2023-12-15T13:33:18Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering [18.581514902689346]
そこで我々は,Closo-AQAという,1991年の音声ファイルから選択した15秒から30秒間からなる音声質問応答用データセットを紹介した。
各オーディオファイルに対して,Amazon Mechanical Turkを用いたクラウドソーシングによって6つの質問とそれに対応する回答を収集する。
本稿では,AQAタスクにおけるデータセットの使用方法を説明するための2つのベースライン実験について述べる。
論文 参考訳(メタデータ) (2022-04-20T17:28:53Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - ListReader: Extracting List-form Answers for Opinion Questions [18.50111430378249]
ListReaderは、リスト形式の回答のためのニューラルネットワーク抽出QAモデルである。
質問と内容のアライメントの学習に加えて,異種グラフニューラルネットワークを導入する。
提案モデルでは,スパンレベルと文レベルのいずれの回答も抽出可能な抽出設定を採用する。
論文 参考訳(メタデータ) (2021-10-22T10:33:08Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - NAAQA: A Neural Architecture for Acoustic Question Answering [8.364707318181193]
AQAタスクの目的は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
音響入力の特定の課題を強調する新しいベンチマークであるCLEAR2を提案する。
また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
論文 参考訳(メタデータ) (2021-06-11T03:05:48Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。