論文の概要: DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
- arxiv url: http://arxiv.org/abs/2509.19274v1
- Date: Tue, 23 Sep 2025 17:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.982048
- Title: DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
- Title(参考訳): DRISHTIKON: 言語モデルのインド文化理解のためのマルチモーダル多言語ベンチマーク
- Authors: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha,
- Abstract要約: DRISHTIKON(DRISHTIKON)は、インド文化を中心としたマルチモーダルおよび多言語ベンチマークである。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産を含む豊かな文化的テーマを捉えている。
我々は、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックスにフォーカスしたモデルなど、幅広い視覚言語モデル(VLM)を評価する。
- 参考スコア(独自算出の注目度): 14.681676046750342
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.
- Abstract(参考訳): DRISHTIKON(DRISHTIKON)は、インド文化を中心とした多言語・多言語ベンチマークであり、生成型AIシステムの文化的理解を評価することを目的としている。
ジェネリックまたはグローバルな範囲を持つ既存のベンチマークとは異なり、DRISHTIKONは15の言語にまたがり、すべての州とユニオンの領域をカバーし、64,000以上のテキストイメージのペアを組み込んでいる。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産など、多くの文化的テーマを捉えている。
我々は、ゼロショットおよびチェーン・オブ・思想設定において、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックス特化モデルを含む幅広い視覚言語モデル(VLM)を評価した。
我々の結果は、特に低リソース言語や文書化の少ない伝統に対して、文化的に根ざしたマルチモーダルな入力を推理する現在のモデルの能力において、重要な制限を明らかにします。
DRISHTIKONは、包括的AI研究において重要なギャップを埋め、文化的に認知され、マルチモーダルな言語技術を進歩させるための堅牢なテストベッドを提供する。
関連論文リスト
- Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - Chitrarth: Bridging Vision and Language for a Billion People [4.434971952378384]
我々は、包括的視覚言語モデル(VLM)であるChitrarth (Chitra: Image; Artha: Meaning)を紹介する。
我々のモデルは、多言語画像テキストデータに基づいて訓練された視覚モジュールと、最先端(SOTA)多言語大言語モデル(LLM)を効果的に統合する。
本モデルでは,低リソース言語を対象としたベンチマークのSOTA結果が得られたが,その効率は英語で維持されている。
論文 参考訳(メタデータ) (2025-02-21T11:38:40Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。