論文の概要: IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages
- arxiv url: http://arxiv.org/abs/2602.22125v1
- Date: Wed, 25 Feb 2026 17:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.926804
- Title: IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages
- Title(参考訳): IndicIFEval:14のインデックス言語における検証可能なインストラクションフォロー評価ベンチマーク
- Authors: Thanmay Jayakumar, Mohammed Safi Ur Rahman Khan, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan,
- Abstract要約: IndicIFEvalは14言語にわたるLLMの制約付き生成を評価するベンチマークである。
これは2つの補完的なサブセットにまたがる言語毎の約800の人間検証例で構成されている。
我々は、理性モデルと非理性モデルの両方にまたがる主要なオープンウェイトおよびプロプライエタリモデルの包括的な評価を行う。
- 参考スコア(独自算出の注目度): 27.702988457222116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following benchmarks remain predominantly English-centric, leaving a critical evaluation gap for the hundreds of millions of Indic language speakers. We introduce IndicIFEval, a benchmark evaluating constrained generation of LLMs across 14 Indic languages using automatically verifiable, rule-based instructions. It comprises around 800 human-verified examples per language spread across two complementary subsets: IndicIFEval-Ground, translated prompts from IFEval (Zhou et al., 2023) carefully localized for Indic contexts, and IndicIFEval-Ground, synthetically generated instructions grounded in native Indic content. We conduct a comprehensive evaluation of major open-weight and proprietary models spanning both reasoning and non-reasoning models. While models maintain strong adherence to formatting constraints, they struggle significantly with lexical and cross-lingual tasks -- and despite progress in high-resource languages, instruction-following across the broader Indic family lags significantly behind English. We release IndicIFEval and its evaluation scripts to support progress on multilingual constrained generation (http://github.com/ai4bharat/IndicIFEval).
- Abstract(参考訳): インストラクション追従ベンチマークは英語中心のままであり、数億人のIndic言語話者にとって重要な評価ギャップを残している。
IndicIFEvalは、自動検証可能なルールベースの命令を用いて、14言語にわたるLLMの制約付き生成を評価するベンチマークである。
IndicIFEval-GroundはIFEval(Zhou et al , 2023)から翻訳されたプロンプトであり、IndicIFEval-GroundはネイティブなIndic内容に基づいて合成的に生成された命令である。
我々は、理性モデルと非理性モデルの両方にまたがる主要なオープンウェイトおよびプロプライエタリモデルの包括的な評価を行う。
モデルはフォーマット制約に強く固執する一方で、語彙的、言語横断的なタスクとかなり苦労しています。
IndicIFEvalとその評価スクリプトは、多言語制約付き世代(http://github.com/ai4bharat/IndicIFEval)の進行をサポートする。
関連論文リスト
- IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages? [16.53746282142566]
Indic言語6言語における13の摂動にまたがる8つの言語特性の符号化能力とロバスト性について検討した。
表面, 構文, 意味的特性の探索解析により, ほぼすべての多言語モデルが英語における一貫した符号化性能を示した。
インデックス固有の多言語モデルは、普遍的モデルよりもインディック言語の言語特性を捉えている。
論文 参考訳(メタデータ) (2024-10-03T15:50:08Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Towards Leaving No Indic Language Behind: Building Monolingual Corpora,
Benchmark and Models for Indic Languages [19.91781398526369]
3つの重要な軸に沿ってコントリビューションを行うことで、Indic言語のNLU機能を改善することを目指している。
具体的には、4つの言語ファミリーの24言語をカバーする20.9Bトークンで、最大のモノリンガルコーパスであるIndicCorpをキュレートする。
我々は、20言語をカバーする9つの異なるNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。
言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、そのうち52が新たな文献への貢献である。
論文 参考訳(メタデータ) (2022-12-11T04:45:50Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in
Indic Languages [0.0]
インジケート言語は、豊富なモーフィオシンタックス、文法的ジェンダー、自由な線形単語順序、および高インフレクション型形態学を有する。
Vy=akarana - 多言語言語モデルの構文評価のためのIndic言語における性別バランスの取れたカラーレスグリーン文のベンチマーク。
評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。
論文 参考訳(メタデータ) (2021-03-01T09:07:58Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。