論文の概要: Many Dialects, Many Languages, One Cultural Lens: Evaluating Multilingual VLMs for Bengali Culture Understanding Across Historically Linked Languages and Regional Dialects
- arxiv url: http://arxiv.org/abs/2603.21165v1
- Date: Sun, 22 Mar 2026 10:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.268171
- Title: Many Dialects, Many Languages, One Cultural Lens: Evaluating Multilingual VLMs for Bengali Culture Understanding Across Historically Linked Languages and Regional Dialects
- Title(参考訳): 多くの方言、多くの言語、一つの文化レンズ:ベンガル文化における歴史的に結びついた言語と地域方言の多言語VLMの評価
- Authors: Nurul Labib Sayeedi, Md. Faiyaz Abdullah Sayeedi, Shubhashis Roy Dipta, Rubaya Tabassum, Ariful Ekraj Hridoy, Mehraj Mahmood, Mahbub E Sobhani, Md. Tarek Hasan, Swakkhar Shatabda,
- Abstract要約: 9つのドメインで1,152枚の手動でキュレートされた画像から構築されたこのベンチマークは、視覚的な質問応答とキャプションをサポートする。
実験の結果,標準バングラのみの評価が真のモデル能力を過大評価していることがわかった。
ドメイン全体において、主なボトルネックは、視覚的な基盤ではなく、文化的知識の欠如である。
- 参考スコア(独自算出の注目度): 1.6884607868633077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bangla culture is richly expressed through region, dialect, history, food, politics, media, and everyday visual life, yet it remains underrepresented in multimodal evaluation. To address this gap, we introduce BanglaVerse, a culturally grounded benchmark for evaluating multilingual vision-language models (VLMs) on Bengali culture across historically linked languages and regional dialects. Built from 1,152 manually curated images across nine domains, the benchmark supports visual question answering and captioning, and is expanded into four languages and five Bangla dialects, yielding ~32.3K artifacts. Our experiments show that evaluating only standard Bangla overestimates true model capability: performance drops under dialectal variation, especially for caption generation, while historically linked languages such as Hindi and Urdu retain some cultural meaning but remain weaker for structured reasoning. Across domains, the main bottleneck is missing cultural knowledge rather than visual grounding alone, with knowledge-intensive categories. These findings position BanglaVerse as a more realistic test bed for measuring culturally grounded multimodal understanding under linguistic variation.
- Abstract(参考訳): バングラ文化は、地域、方言、歴史、食べ物、政治、メディア、日常の視覚的生活を通じて豊かに表現されているが、マルチモーダルな評価では表現されていない。
このギャップに対処するために,BanglaVerseを紹介した。BanglaVerseは,歴史的に結びついた言語と地域方言をまたいだベンガル文化上の多言語視覚言語モデル(VLM)を評価するための,文化的基盤化されたベンチマークである。
9つの領域で1,152枚の手動でキュレートされた画像から作成され、視覚的な質問応答とキャプションをサポートし、4つの言語と5つのバングラ方言に拡張され、約32.3Kのアーティファクトが得られる。
我々の実験は、標準バングラの評価が真のモデル能力を過大評価していることを示している。特にキャプション生成における性能低下は、ヒンディー語やウルドゥー語のような歴史的に結びついている言語は、いくつかの文化的意味を保っているが、構造的推論では弱いままである。
ドメイン全体において、主なボトルネックは、知識集約的なカテゴリで視覚的な基盤を単独で持つのではなく、文化的知識の欠如である。
これらの知見は,BanglaVerseを,言語的変異下での文化的基盤的マルチモーダル理解を測定するための,より現実的なテストベッドとして位置づけた。
関連論文リスト
- AmharicStoryQA: A Multicultural Story Question Answering Benchmark in Amharic [25.361090310093072]
評価は一つの言語に存在する有意義な文化的変化を見落としていると論じる。
アンハラ語話者の文化的多彩な物語に基づくベンチマークであるtextbftextitAmharicStoryQAを紹介する。
論文 参考訳(メタデータ) (2026-02-02T20:28:19Z) - Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - From Facts to Folklore: Evaluating Large Language Models on Bengali Cultural Knowledge [7.322034156204158]
大規模言語モデル(LLM)は,コンテキストが提供されると,文化的知識やパフォーマンスに苦しむことを示す。
我々の研究は、ベンガル語文化知識データセットを通じてこれらの制限に対処し、民俗伝統、料理芸術、地域方言を含む。
複数の多言語言語モデルについて検討したところ、これらのモデルは非文化的カテゴリーでよく機能するが、文化的な知識にかなり苦労し、文脈が提供されると性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2025-10-22T21:42:59Z) - BIDWESH: A Bangla Regional Based Hate Speech Detection Dataset [0.0]
本研究は,バングラヘイトスピーチデータセットであるBIDWESHを紹介する。
BD-SHSコーパスから9,183のインスタンスを3つの主要地域方言に翻訳し、注釈付けすることで構築された。
その結果得られたデータセットは、バングラでヘイトスピーチの検出を進めるための言語的にリッチでバランスの取れた、包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-07-22T02:53:48Z) - Bridging Dialects: Translating Standard Bangla to Regional Variants Using Neural Models [1.472830326343432]
この研究は、言語多様性を保ち、方言話者間のコミュニケーションを改善する必要性によって動機付けられている。
モデルは"Vashantor"データセットを使用して微調整され、様々な方言で32,500の文が含まれている。
BanglaT5はCERが12.3%、WERが15.7%で優れた性能を示し、方言のニュアンスを捉える効果を強調した。
論文 参考訳(メタデータ) (2025-01-10T06:50:51Z) - BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization [7.059964549363294]
本研究は、方言のNoakhali音声を標準のBangla音声に変換するためのエンドツーエンドパイプラインを提案する。
約55の異なる方言が1億6000万人が話しており、バングラ方言に対処することは包括的コミュニケーションツールの開発に不可欠である。
実験の結果,Whisper ASRモデルが0.8%,WERが1.5%,BanglaT5モデルが41.6%,BLEUが41.6%であった。
論文 参考訳(メタデータ) (2024-11-16T20:20:15Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。