論文の概要: BHRAM-IL: A Benchmark for Hallucination Recognition and Assessment in Multiple Indian Languages
- arxiv url: http://arxiv.org/abs/2512.01852v1
- Date: Mon, 01 Dec 2025 16:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.961901
- Title: BHRAM-IL: A Benchmark for Hallucination Recognition and Assessment in Multiple Indian Languages
- Title(参考訳): BHRAM-IL:複数のインドの言語における幻覚認識と評価のためのベンチマーク
- Authors: Hrishikesh Terdalkar, Kirtan Bhojani, Aryan Dongare, Omm Aditya Behera,
- Abstract要約: 複数のインドの言語における幻覚認識と評価のためのベンチマークであるBHRAM-ILを提案する。
このベンチマークは、事実、数値、推論、言語タスクにまたがる9つのカテゴリにわたる36,047のキュレートされた質問で構成されている。
我々は10,265質問のベンチマークサブセットを用いて14の最先端多言語LPMを評価し、言語横断および事実幻覚を解析した。
- 参考スコア(独自算出の注目度): 0.48414873775965206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in multilingual applications but often generate plausible yet incorrect or misleading outputs, known as hallucinations. While hallucination detection has been studied extensively in English, under-resourced Indian languages remain largely unexplored. We present BHRAM-IL, a benchmark for hallucination recognition and assessment in multiple Indian languages, covering Hindi, Gujarati, Marathi, Odia, along with English. The benchmark comprises 36,047 curated questions across nine categories spanning factual, numerical, reasoning, and linguistic tasks. We evaluate 14 state-of-the-art multilingual LLMs on a benchmark subset of 10,265 questions, analyzing cross-lingual and factual hallucinations across languages, models, scales, categories, and domains using category-specific metrics normalized to (0,1) range. Aggregation over all categories and models yields a primary score of 0.23 and a language-corrected fuzzy score of 0.385, demonstrating the usefulness of BHRAM-IL for hallucination-focused evaluation. The dataset, and the code for generation and evaluation are available on GitHub (https://github.com/sambhashana/BHRAM-IL/) and HuggingFace (https://huggingface.co/datasets/sambhashana/BHRAM-IL/) to support future research in multilingual hallucination detection and mitigation.
- Abstract(参考訳): 大規模言語モデル (LLMs) は多言語アプリケーションにますます導入されているが、しばしば幻覚(英語版)として知られる誤りや誤りを招きやすい出力を生成する。
幻覚検出は英語で広く研究されているが、未資源のインドの言語はほとんど探索されていない。
本稿では,ヒンディー語,グジャラート語,マラティー語,オディア語,および英語を対象とする,複数のインドの言語における幻覚認識と評価のためのベンチマークであるBHRAM-ILを提案する。
このベンチマークは、事実、数値、推論、言語タスクにまたがる9つのカテゴリにわたる36,047のキュレートされた質問で構成されている。
我々は10,265質問のベンチマークサブセットを用いて14の最先端多言語LCMを評価し、(0,1)の範囲に正規化されたカテゴリ固有の指標を用いて言語、モデル、スケール、カテゴリ、ドメイン間の言語間および事実の幻覚を分析した。
すべてのカテゴリやモデルに対する集約は、一次スコアが0.23、言語修正ファジィスコアが0.385となり、幻覚に焦点を当てた評価にBHRAM-ILが有用であることを示す。
GitHub(https://github.com/sambhashana/BHRAM-IL/)とHuggingFace(https://huggingface.co/datasets/sambhashana/BHRAM-IL/)で、多言語幻覚の検出と緩和に関する将来の研究をサポートする。
関連論文リスト
- HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples [3.3715057550177145]
インド語の視覚言語モデル(VLM)を評価し,それを英語のパフォーマンスと比較するためのスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
論文 参考訳(メタデータ) (2025-11-19T07:11:00Z) - MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations [10.740657809490921]
大型言語モデル(LLM)は、忠実さと事実性に固有の制限があり、一般に幻覚と呼ばれる。
英語中心のデータセットの文脈における事実性評価のためのテストベッドを提供するいくつかのベンチマークが開発されている。
我々は,既存の幻覚評価ベンチマークにおいて,事実言語モデリングのためのKGパスと多言語性の欠如を橋渡しし,生成テキスト評価のためのMultiHal framedと呼ばれるKGベースの多言語マルチホップベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:03:35Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。