論文の概要: Towards Multilingual Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2406.09156v1
- Date: Thu, 13 Jun 2024 14:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:34:25.011186
- Title: Towards Multilingual Audio-Visual Question Answering
- Title(参考訳): 多言語音声-視覚的質問応答に向けて
- Authors: Orchid Chetia Phukan, Priyabrata Mallick, Swarup Ranjan Behera, Aalekhya Satya Narayani, Arun Balaji Buduru, Rajesh Sharma,
- Abstract要約: 機械翻訳を活用し、8言語を対象とした2つの多言語AVQAデータセットを提示する。
これにより、質問や回答を手作業で収集する、追加の人間のアノテーション作業が防止される。
提案したデータセットをベンチマークするために,様々なモデルアーキテクチャを備えたMERA-L, MERA-C, MERA-T というモデルスイートを導入する。
- 参考スコア(独自算出の注目度): 1.3194391758295114
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we work towards extending Audio-Visual Question Answering (AVQA) to multilingual settings. Existing AVQA research has predominantly revolved around English and replicating it for addressing AVQA in other languages requires a substantial allocation of resources. As a scalable solution, we leverage machine translation and present two multilingual AVQA datasets for eight languages created from existing benchmark AVQA datasets. This prevents extra human annotation efforts of collecting questions and answers manually. To this end, we propose, MERA framework, by leveraging state-of-the-art (SOTA) video, audio, and textual foundation models for AVQA in multiple languages. We introduce a suite of models namely MERA-L, MERA-C, MERA-T with varied model architectures to benchmark the proposed datasets. We believe our work will open new research directions and act as a reference benchmark for future works in multilingual AVQA.
- Abstract(参考訳): 本稿では,Audio-Visual Question Answering (AVQA) を多言語設定に拡張する。
既存のAVQA研究は、英語を中心に進化し、他の言語でのAVQAに対処するためには、かなりのリソースの割り当てが必要である。
スケーラブルなソリューションとして、マシン翻訳を活用し、既存のベンチマークAVQAデータセットから生成された8つの言語に対して、2つの多言語AVQAデータセットを提示します。
これにより、質問や回答を手作業で収集する、追加の人間のアノテーション作業が防止される。
そこで本稿では,複数の言語におけるAVQAの映像・音声・テキスト基盤モデルを活用したMERAフレームワークを提案する。
提案したデータセットをベンチマークするために,様々なモデルアーキテクチャを備えたMERA-L, MERA-C, MERA-T というモデルスイートを導入する。
我々は,本研究が新たな研究方向を開拓し,多言語AVQAにおける今後の研究の基準ベンチマークとして機能すると信じている。
関連論文リスト
- Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - MaXM: Towards Multilingual Visual Question Answering [28.268881608141303]
我々は,データとモデリングの両面で,多言語視覚質問応答(mVQA)に対するスケーラブルなソリューションを提案する。
まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。
次に,Crossmodal-3600データセットの多言語キャプションに適用し,テスト専用VQAベンチマークであるMaXMを作成するための効率的なアノテーションプロトコルを開発する。
論文 参考訳(メタデータ) (2022-09-12T16:53:37Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。