論文の概要: HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples
- arxiv url: http://arxiv.org/abs/2511.15183v1
- Date: Wed, 19 Nov 2025 07:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.675949
- Title: HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples
- Title(参考訳): HinTel-AlignBench:Hindi-Teluguのフレームワークとベンチマーク
- Authors: Rishikant Chigrupaatii, Ponnada Sai Tulasi Kanishka, Lalit Chandra Routhu, Martin Patel Sama Supratheek Reddy, Divyam Gupta, Dasari Srikar, Krishna Teja Kuchimanchi, Rajiv Misra, Rohun Tripathi,
- Abstract要約: インド語の視覚言語モデル(VLM)を評価し,それを英語のパフォーマンスと比較するためのスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
- 参考スコア(独自算出の注目度): 3.3715057550177145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With nearly 1.5 billion people and more than 120 major languages, India represents one of the most diverse regions in the world. As multilingual Vision-Language Models (VLMs) gain prominence, robust evaluation methodologies are essential to drive progress toward equitable AI for low-resource languages. Current multilingual VLM evaluations suffer from four major limitations: reliance on unverified auto-translations, narrow task/domain coverage, limited sample sizes, and lack of cultural and natively sourced Question-Answering (QA). To address these gaps, we present a scalable framework to evaluate VLMs in Indian languages and compare it with performance in English. Using the framework, we generate HinTel-AlignBench, a benchmark that draws from diverse sources in Hindi and Telugu with English-aligned samples. Our contributions are threefold: (1) a semi-automated dataset creation framework combining back-translation, filtering, and human verification; (2) the most comprehensive vision-language benchmark for Hindi and and Telugu, including adapted English datasets (VQAv2, RealWorldQA, CLEVR-Math) and native novel Indic datasets (JEE for STEM, VAANI for cultural grounding) with approximately 4,000 QA pairs per language; and (3) a detailed performance analysis of various State-of-the-Art (SOTA) open-weight and closed-source VLMs. We find a regression in performance for tasks in English versus in Indian languages for 4 out of 5 tasks across all the models, with an average regression of 8.3 points in Hindi and 5.5 points for Telugu. We categorize common failure modes to highlight concrete areas of improvement in multilingual multimodal understanding.
- Abstract(参考訳): 約15億人と120以上の主要言語を抱えるインドは、世界で最も多様な地域の一つである。
VLM(Multilingual Vision-Language Models)が普及するにつれて、低リソース言語に対する公平なAIに向けた堅牢な評価手法が不可欠である。
現在の多言語VLM評価には、未検証の自動翻訳への依存、タスク/ドメインの範囲の狭さ、サンプルサイズの制限、文化的およびネイティブソースの質問応答(QA)の欠如の4つの大きな制限がある。
これらのギャップに対処するために、インド語のVLMを評価し、それを英語のパフォーマンスと比較するスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
筆者らの貢献は,(1)バックトランスレーション,フィルタリング,人体検証を組み合わせた半自動データセット作成フレームワーク,(2)ヒンディー語とテルグ語に対する最も包括的なビジョンベンチマーク,(2)適応型英語データセット(VQAv2, RealWorldQA, CLEVR-Math)とネイティブノベルのIndicデータセット(JEE for STEM, VAANI for cultural grounding)と約4,000のQAペアの言語に対する詳細なパフォーマンス分析,(3)オープン・オブ・ザ・アート(SOTA)およびクローズド・ソースVLMの詳細なパフォーマンス分析である。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
我々は,多言語マルチモーダル理解における具体的な改善点を明らかにするために,共通障害モードを分類する。
関連論文リスト
- IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs [2.697578491761838]
IndicVisionBenchはインド亜大陸を中心とした最初の大規模ベンチマークである。
我々のベンチマークは光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚質問応答(VQA)を含む3つのマルチモーダルタスクにまたがる。
さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
論文 参考訳(メタデータ) (2025-11-06T18:01:22Z) - Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages [1.1957520154275776]
EKA-evalは、9つの主要な評価カテゴリに35以上のベンチマークを統合する統合評価フレームワークである。
モジュールアーキテクチャによる11のコア機能、Hugging Faceとプロプライエタリなモデルとのシームレスな統合、プラグインとプレイのユーザビリティを提供する。
フレームワークはオープンソースで、https://github.com/lingo-iitgn/eka-eval.comで公開されている。
論文 参考訳(メタデータ) (2025-07-02T16:07:54Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Benchmarking and Building Zero-Shot Hindi Retrieval Model with Hindi-BEIR and NLLB-E5 [8.21020989074456]
Hindi-BEIRベンチマークを導入し,7つのタスクにまたがる15のデータセットについて検討した。
我々は,Hindi-BEIRベンチマークを用いた最先端多言語検索モデルの評価を行い,課題とドメイン固有の課題を特定する。
我々は,ヒンディー語学習データを必要とせずにヒンディー語をサポートするため,ゼロショットアプローチを利用する多言語検索モデルであるNLLB-E5を紹介する。
論文 参考訳(メタデータ) (2024-09-09T07:57:43Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。