論文の概要: EverydayMMQA: A Multilingual and Multimodal Framework for Culturally Grounded Spoken Visual QA
- arxiv url: http://arxiv.org/abs/2510.06371v1
- Date: Tue, 07 Oct 2025 18:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.148148
- Title: EverydayMMQA: A Multilingual and Multimodal Framework for Culturally Grounded Spoken Visual QA
- Title(参考訳): EverydayMMQA: 文化的基盤を持つビジュアルQAのための多言語・マルチモーダルフレームワーク
- Authors: Firoj Alam, Ali Ezzat Shahroor, Md. Arid Hasan, Zien Sheikh Ali, Hunzalah Hassan Bhatti, Mohamed Bayan Kmainasi, Shammur Absar Chowdhury, Basel Mousi, Fahim Dalvi, Nadir Durrani, Natasa Milic-Frayling,
- Abstract要約: Everyday Multimodal and Multilingual QA (EverydayMMQA)について紹介する。
OASISは、音声、画像、テキストを統合するマルチモーダルデータセットである。
クローズドソースモデル4つ、オープンソースモデル3つ、微調整モデル1つをベンチマークした。
- 参考スコア(独自算出の注目度): 22.30611382189773
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale multimodal models achieve strong results on tasks like Visual Question Answering (VQA), but they often fail when queries require culturally grounded, everyday knowledge, particularly in low-resource and underrepresented languages. To bridge this gap, we introduce Everyday Multimodal and Multilingual QA (EverydayMMQA), a framework for creating large-scale, culturally-grounded datasets for spoken and visual question answering (SVQA). Using this framework, we developed OASIS, a multimodal dataset integrating speech, images, and text. With over ~0.92M images and 14.8M QA pairs, OASIS contains 3.7M spoken questions, enabling four unique input combinations: speech-only, text-only, speech+image, and text+image. Focused on English and Arabic varieties, 18 countries, the dataset content is curated to reflect diverse, real-world situations. OASIS tests models on tasks beyond object recognition that involve pragmatic, commonsense, and culturally aware reasoning. We benchmarked four closed-source models, three open-source models, and one fine-tuned model. EverydayMMQA and OASIS together provide a benchmark and training dataset for building multimodal LLMs for a comprehensive set of everyday tasks within cultural contexts. The framework and dataset will be made publicly available to the community.
- Abstract(参考訳): 大規模マルチモーダルモデルは、視覚的質問回答(VQA)のようなタスクにおいて強力な結果をもたらすが、クエリが文化的に根ざした日常的知識を必要とする場合、特に低リソース言語や低表現言語では、しばしば失敗する。
このギャップを埋めるために、音声および視覚的質問応答(SVQA)のための大規模かつ文化的なデータセットを作成するためのフレームワークであるEveryday Multimodal and Multilingual QA(EverydayMMQA)を紹介した。
このフレームワークを用いて、音声、画像、テキストを統合したマルチモーダルデータセットであるOASISを開発した。
0.92M以上の画像と14.8MのQAペアを持つOASISには、3.7Mの音声質問が含まれており、音声のみ、テキストのみ、音声+画像、テキスト+画像の4つのユニークな入力の組み合わせが可能である。
18カ国の英語とアラビアの品種に焦点を合わせ、データセットの内容は多様な現実世界の状況を反映するようにキュレーションされている。
OASISは、実用的、常識的、文化的に認識された推論を含む、オブジェクト認識以外のタスクのモデルをテストする。
クローズドソースモデル4つ、オープンソースモデル3つ、微調整モデル1つをベンチマークした。
毎日MMQAとOASISは、文化的な文脈における日常的なタスクの包括的なセットのために、マルチモーダルなLLMを構築するためのベンチマークとトレーニングデータセットを提供する。
フレームワークとデータセットは、コミュニティに公開される予定である。
関連論文リスト
- Multimodal Evaluation of Russian-language Architectures [88.00147763684451]
本稿では,ロシアの建築におけるオープンなマルチモーダル評価フレームワークであるMera Multiを紹介する。
ベンチマークはインストラクションベースで、デフォルトのテキスト、画像、オーディオ、ビデオモダリティを含んでいる。
Mera Multiは、マルチモーダルベンチマークを構築するための複製可能な方法論を提供する。
論文 参考訳(メタデータ) (2025-11-19T15:43:53Z) - IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs [2.697578491761838]
IndicVisionBenchはインド亜大陸を中心とした最初の大規模ベンチマークである。
我々のベンチマークは光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚質問応答(VQA)を含む3つのマルチモーダルタスクにまたがる。
さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
論文 参考訳(メタデータ) (2025-11-06T18:01:22Z) - TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs [12.60449414234283]
SpokenNativQAは、最初の多言語および文化的に整列された音声質問応答データセットである。
データセットは、複数の言語で約33,000の自然に話される質問と回答から構成される。
論文 参考訳(メタデータ) (2025-05-25T14:22:18Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - NativQA: Multilingual Culturally-Aligned Natural Query for LLMs [12.35947908812959]
大規模言語モデル(LLM)の能力を評価する上で、QAデータセットは重要な役割を果たす。
文化的かつ地域的に整合したQAデータセットをシームレスに構築する,スケーラブルで言語に依存しないフレームワークであるNativQAを提案する。
7言語で64kの注釈付きQAペアからなる多言語自然QAデータセットであるMultiNativQAを設計することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-13T09:34:00Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。