論文の概要: HalalBench: A Multilingual OCR Benchmark for Food Packaging Ingredient Extraction
- arxiv url: http://arxiv.org/abs/2604.22754v1
- Date: Thu, 19 Feb 2026 20:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.148934
- Title: HalalBench: A Multilingual OCR Benchmark for Food Packaging Ingredient Extraction
- Title(参考訳): HalalBench: 食品包装イングレディエント抽出のための多言語OCRベンチマーク
- Authors: Hasan Arief,
- Abstract要約: 既存のベンチマークは文書やテキストをターゲットにしており、曲面、多言語テキスト、サブ8ptフォントといった材料ラベルの独特な課題を欠いている。
食品包装OCRのための最初のオープン多言語ベンチマークであるCOCOを,14言語にまたがる36,438のアノテーションと1,043のイメージ(50のリアル,993の合成)からなる。
クラスタリングアブレーションは、我々の後処理アルゴリズムから36%のF1改善を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: No standardized benchmark exists for evaluating OCR on food packaging, despite its critical role in automated halal food verification. Existing benchmarks target documents or scene text, missing the unique challenges of ingredient labels: curved surfaces, dense multilingual text, and sub-8pt fonts. We present HalalBench, the first open multilingual benchmark for food packaging OCR, comprising 1,043 images (50 real, 993 synthetic) with 36,438 annotations in COCO format spanning 14 languages. We evaluate four engines: docTR achieves F1=0.193, ML Kit 0.180, EasyOCR 0.167, while all fail on Japanese (F1=0.000). A clustering ablation shows 36% F1 improvement from our post-processing algorithm. We validate findings through HalalLens (https://halallens.no), a production halal scanner serving 20+ countries. Dataset and code are released under open licenses.
- Abstract(参考訳): 食品包装におけるOCR評価のための標準ベンチマークは存在しないが、自動ハラル食品検証において重要な役割を担っている。
既存のベンチマークは文書やシーンテキストをターゲットにしており、曲面、多言語テキスト、サブ8ptフォントといった材料ラベルの独特な課題を欠いている。
食品包装OCRの最初のオープン多言語ベンチマークであるHalalBenchについて紹介する。14言語にまたがるCOCO形式では,3,438のアノテーションと1,043のイメージ(50のリアル,993の合成)からなる。
docTR は F1=0.193, ML Kit 0.180, EasyOCR 0.167 であり, すべて日本語で失敗する(F1=0.000)。
クラスタリングアブレーションは、我々の後処理アルゴリズムから36%のF1改善を示している。
HalalLens (https://halallens.no)は20か国以上のハラルスキャナーである。
データセットとコードは、オープンライセンスでリリースされる。
関連論文リスト
- BlasBench: An Open Benchmark for Irish Speech Recognition [0.0]
既存のベンチマークにはアイルランド語が含まれているが、アイルランド語対応のテキスト正規化は適用されていない。
BlasBenchを紹介します。これは、ファダ、レニッション、エクリプシスを保存するスタンドアロンのアイリッシュ・アウェア・ノーマルライザを提供するオープンアセスメントハーネスです。
私たちは、Common Voice Ga-IEとFLEURS ga-IEの4つのアーキテクチャファミリで12のシステムをベンチマークすることで、これを試行しています。
論文 参考訳(メタデータ) (2026-04-12T17:17:54Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - DIETA: A Decoder-only transformer-based model for Italian-English machine TrAnslation [74.85762984118024]
DIETAは、0.5億のパラメータを持つ小さなデコーダのみのトランスフォーマーモデルである。
約2億7700万のイタリア語と英語の文対からなる大きな並列コーパスを収集し、キュレートする。
2025 WikiNews の記事を基に,450 文からなる新しい小規模評価セットをリリースする。
論文 参考訳(メタデータ) (2026-01-25T13:08:43Z) - Evaluating OCR performance on food packaging labels in South Africa [0.0]
本研究では,実際の食品包装画像上で,Tesseract,EasyOCR,PaddleOCR,TrOCRの4つのオープンソース文字認識システムについて検討した。
本研究の目的は、食材リストや栄養情報パネルを抽出する能力を評価することである。
論文 参考訳(メタデータ) (2025-10-03T23:38:45Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - ReceiptSense: Beyond Traditional OCR -- A Dataset for Receipt Understanding [17.47301087011574]
データセットはアラビア語のレシート理解のために設計された包括的なデータセットである。
データセットには、さまざまな小売設定からの2万のアノテートレシート、30,000のOCRアノテートイメージ、10,000のアイテムレベルのアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-06-06T20:38:15Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。