論文の概要: Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering
- arxiv url: http://arxiv.org/abs/2204.09634v1
- Date: Wed, 20 Apr 2022 17:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:36:58.851202
- Title: Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering
- Title(参考訳): Clotho-AQA: 音声質問応答のためのクラウドソーシングデータセット
- Authors: Samuel Lipping, Parthasaarathy Sudarsanam, Konstantinos Drossos,
Tuomas Virtanen
- Abstract要約: そこで我々は,Closo-AQAという,1991年の音声ファイルから選択した15秒から30秒間からなる音声質問応答用データセットを紹介した。
各オーディオファイルに対して,Amazon Mechanical Turkを用いたクラウドソーシングによって6つの質問とそれに対応する回答を収集する。
本稿では,AQAタスクにおけるデータセットの使用方法を説明するための2つのベースライン実験について述べる。
- 参考スコア(独自算出の注目度): 18.581514902689346
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio question answering (AQA) is a multimodal translation task where a
system analyzes an audio signal and a natural language question, to generate a
desirable natural language answer. In this paper, we introduce Clotho-AQA, a
dataset for Audio question answering consisting of 1991 audio files each
between 15 to 30 seconds in duration selected from the Clotho dataset [1]. For
each audio file, we collect six different questions and corresponding answers
by crowdsourcing using Amazon Mechanical Turk. The questions and answers are
produced by different annotators. Out of the six questions for each audio, two
questions each are designed to have 'yes' and 'no' as answers, while the
remaining two questions have other single-word answers. For each question, we
collect answers from three different annotators. We also present two baseline
experiments to describe the usage of our dataset for the AQA task - an
LSTM-based multimodal binary classifier for 'yes' or 'no' type answers and an
LSTM-based multimodal multi-class classifier for 828 single-word answers. The
binary classifier achieved an accuracy of 62.7% and the multi-class classifier
achieved a top-1 accuracy of 54.2% and a top-5 accuracy of 93.7%. Clotho-AQA
dataset is freely available online at https://zenodo.org/record/6473207.
- Abstract(参考訳): 音声質問応答(audio question answering, aqa)は、システムが音声信号と自然言語質問を分析し、望ましい自然言語応答を生成するマルチモーダル翻訳タスクである。
本稿では,Closo データセット [1] から選択した15秒から30秒間,1991 の音声ファイルからなる音声質問応答用データセットである Clotho-AQA を紹介する。
各オーディオファイルに対して,Amazon Mechanical Turkを用いたクラウドソーシングによって6つの質問とそれに対応する回答を収集する。
質問と答えは異なるアノテーションによって生成される。
それぞれの音声に対する6つの質問のうち、2つの質問は「yes」と「no」を答えとして設計され、残りの2つの質問は他の1単語の答えを持つ。
各質問に対して、3つの異なるアノテータから回答を収集する。
また,AQAタスクにおけるデータセットの利用を記述するためのベースライン実験として,'yes'型や'no'型に対するLSTMベースのマルチモーダルバイナリ分類器と,828語に対するLSTMベースのマルチモーダルクラス分類器を提案する。
バイナリ分類器は62.7%、マルチクラス分類器は54.2%のtop-1精度と93.7%のtop-5精度を達成した。
Clotho-AQAデータセットはhttps://zenodo.org/record/6473207.comで無料で公開されている。
関連論文リスト
- Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Attention-Based Methods For Audio Question Answering [16.82832919748399]
本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
論文 参考訳(メタデータ) (2023-05-31T12:00:51Z) - Activity report analysis with automatic single or multispan answer
extraction [0.21485350418225244]
我々は,質問内容や質問内容に応じて,単一回答と複数回答のペアによる新しいスマートホーム環境データセットを作成する。
実験の結果,提案手法はデータセット上での最先端QAモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-09T06:33:29Z) - An Answer Verbalization Dataset for Conversational Question Answerings
over Knowledge Graphs [9.979689965471428]
本稿では,既存のConvQAデータセットを言語化された回答で拡張することによって,最先端技術に寄与する。
5つのシーケンス・ツー・シーケンスモデルを用いて,文法的正しさを維持しながら応答生成実験を行った。
論文 参考訳(メタデータ) (2022-08-13T21:21:28Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - In Situ Answer Sentence Selection at Web-scale [120.69820139008138]
Passage-based Extracting Answer Sentence In-place (PEASI)は、Webスケール設定に最適化されたAS2の新しい設計である。
PEASIをマルチタスク学習フレームワークでトレーニングし,各コンポーネント間の特徴共有を促進する。
実験により、PEASIはAS2の現在の最先端設定、すなわち文を独立してランク付けするためのポイントワイズモデルを6.51%精度で効果的に上回っている。
論文 参考訳(メタデータ) (2022-01-16T06:36:00Z) - Zero-Shot Open-Book Question Answering [0.0]
本稿では,ドメイン固有のラベル付きデータ(ゼロショット)を持たない技術文書から自然言語質問に答えるソリューションを提案する。
私たちは、AWSのテクニカルドキュメントに関する実際の顧客からの質問に基づいて、オープンブックのQAのための新しいテストデータセットを導入しています。
ドメイン固有のトレーニングなしで、49%のF1と39%の正確なスコア(EM)をエンドツーエンドで達成できたのです。
論文 参考訳(メタデータ) (2021-11-22T20:38:41Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - ParaQA: A Question Answering Dataset with Paraphrase Responses for
Single-Turn Conversation [5.087932295628364]
ParaQAは知識グラフ(KG)上の1ターン会話のための複数のパラフレーズ応答を持つデータセットである
データセットは半自動的なフレームワークを使って、バックトランスレーションのようなテクニックを使って、さまざまな回答のパラフレージングを生成する。
論文 参考訳(メタデータ) (2021-03-13T18:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。