論文の概要: DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
- arxiv url: http://arxiv.org/abs/2509.19274v1
- Date: Tue, 23 Sep 2025 17:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.982048
- Title: DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
- Title(参考訳): DRISHTIKON: 言語モデルのインド文化理解のためのマルチモーダル多言語ベンチマーク
- Authors: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha,
- Abstract要約: DRISHTIKON(DRISHTIKON)は、インド文化を中心としたマルチモーダルおよび多言語ベンチマークである。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産を含む豊かな文化的テーマを捉えている。
我々は、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックスにフォーカスしたモデルなど、幅広い視覚言語モデル(VLM)を評価する。
- 参考スコア(独自算出の注目度): 14.681676046750342
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.
- Abstract(参考訳): DRISHTIKON(DRISHTIKON)は、インド文化を中心とした多言語・多言語ベンチマークであり、生成型AIシステムの文化的理解を評価することを目的としている。
ジェネリックまたはグローバルな範囲を持つ既存のベンチマークとは異なり、DRISHTIKONは15の言語にまたがり、すべての州とユニオンの領域をカバーし、64,000以上のテキストイメージのペアを組み込んでいる。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産など、多くの文化的テーマを捉えている。
我々は、ゼロショットおよびチェーン・オブ・思想設定において、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックス特化モデルを含む幅広い視覚言語モデル(VLM)を評価した。
我々の結果は、特に低リソース言語や文書化の少ない伝統に対して、文化的に根ざしたマルチモーダルな入力を推理する現在のモデルの能力において、重要な制限を明らかにします。
DRISHTIKONは、包括的AI研究において重要なギャップを埋め、文化的に認知され、マルチモーダルな言語技術を進歩させるための堅牢なテストベッドを提供する。
関連論文リスト
- IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs [2.697578491761838]
IndicVisionBenchはインド亜大陸を中心とした最初の大規模ベンチマークである。
我々のベンチマークは光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚質問応答(VQA)を含む3つのマルチモーダルタスクにまたがる。
さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
論文 参考訳(メタデータ) (2025-11-06T18:01:22Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian Culture [17.414561140897945]
インドにおける豊かな文化的多様性に関する言語モデルの理解を評価するためのベンチマークであるSANSKRITIを紹介する。
SNSKRITIは、28の州と8の連邦領域にまたがる、精巧にキュレートされた質問応答ペア21,853からなり、インドの文化知識をテストするための最大のデータセットである。
儀式、儀式、歴史、観光、料理、ダンス、音楽、衣装、言語、芸術、祭典、宗教、医学、輸送、スポーツ、ナイトライフ、個性など、インド文化の重要な特徴を網羅している。
論文 参考訳(メタデータ) (2025-06-18T11:19:25Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - Chitrarth: Bridging Vision and Language for a Billion People [4.434971952378384]
我々は、包括的視覚言語モデル(VLM)であるChitrarth (Chitra: Image; Artha: Meaning)を紹介する。
我々のモデルは、多言語画像テキストデータに基づいて訓練された視覚モジュールと、最先端(SOTA)多言語大言語モデル(LLM)を効果的に統合する。
本モデルでは,低リソース言語を対象としたベンチマークのSOTA結果が得られたが,その効率は英語で維持されている。
論文 参考訳(メタデータ) (2025-02-21T11:38:40Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。