論文の概要: DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2601.19898v1
- Date: Tue, 27 Jan 2026 18:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.44401
- Title: DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding
- Title(参考訳): DuwatBench:マルチモーダル理解のためのアラビア文字ベンチマークによるブリッジ言語とビジュアルヘリテージ
- Authors: Shubham Patle, Sara Ghaboura, Hania Tariq, Mohammad Usman Khan, Omkar Thawakar, Rao Muhammad Anwer, Salman Khan,
- Abstract要約: 1,272のキュレートされたサンプルのベンチマークであるDuwatBenchについて紹介する。
このデータセットは、複雑なストロークパターン、密集したリグチュア、スタイリスティックなバリエーションなど、アラビア文字の現実的な課題を反映している。
DuwatBenchを用いて、アラビア語と多言語のマルチモーダルモデルを13種類評価し、クリーンテキストでうまく機能する一方で、書体の変化、芸術的歪み、正確な視覚的テキストアライメントに苦慮していることを示した。
- 参考スコア(独自算出の注目度): 32.85312741808662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic calligraphy represents one of the richest visual traditions of the Arabic language, blending linguistic meaning with artistic form. Although multimodal models have advanced across languages, their ability to process Arabic script, especially in artistic and stylized calligraphic forms, remains largely unexplored. To address this gap, we present DuwatBench, a benchmark of 1,272 curated samples containing about 1,475 unique words across six classical and modern calligraphic styles, each paired with sentence-level detection annotations. The dataset reflects real-world challenges in Arabic writing, such as complex stroke patterns, dense ligatures, and stylistic variations that often challenge standard text recognition systems. Using DuwatBench, we evaluated 13 leading Arabic and multilingual multimodal models and showed that while they perform well on clean text, they struggle with calligraphic variation, artistic distortions, and precise visual-text alignment. By publicly releasing DuwatBench and its annotations, we aim to advance culturally grounded multimodal research, foster fair inclusion of the Arabic language and visual heritage in AI systems, and support continued progress in this area. Our dataset (https://huggingface.co/datasets/MBZUAI/DuwatBench) and evaluation suit (https://github.com/mbzuai-oryx/DuwatBench) are publicly available.
- Abstract(参考訳): アラビア文字はアラビア語で最も豊かな視覚的伝統の1つであり、言語的な意味と芸術的な形式を混ぜ合わせたものである。
マルチモーダルモデルは言語にまたがって進化してきたが、アラビア文字、特に芸術的、様式化された書体で処理する能力はほとんど解明されていない。
このギャップに対処するため、1272個のキュレートされたサンプルのベンチマークであるDuwatBenchを紹介し、それぞれに文レベルの検出アノテーションが組み合わされた6つの古典的および近代的な書体スタイルの1,475個のユニークな単語を含む。
このデータセットは、複雑なストロークパターン、密集したリグチュア、標準的なテキスト認識システムにしばしば挑戦するスタイリスティックなバリエーションなど、アラビア文字の現実的な課題を反映している。
DuwatBenchを用いて、アラビア語と多言語のマルチモーダルモデルを13種類評価し、クリーンテキストでうまく機能する一方で、書体の変化、芸術的歪み、正確な視覚的テキストアライメントに苦慮していることを示した。
我々は、DuwatBenchとそのアノテーションを公開することによって、文化的基盤を持つマルチモーダルな研究を進め、AIシステムにおけるアラビア語と視覚的遺産の公平な取り込みを促進し、この分野の継続的な進歩を支援することを目指している。
私たちのデータセット(https://huggingface.co/datasets/MBzuAI/DuwatBench)と評価スーツ(https://github.com/mbzuai-oryx/DuwatBench)が公開されています。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - A Hybrid Deep Learning Model for Arabic Text Recognition [2.064612766965483]
本稿では,複数のフォントタイプを用いて印刷されたアラビア文字を認識可能なモデルを提案する。
提案モデルでは,文字セグメンテーションを必要とせずにアラビア文字を認識可能なハイブリッドDLネットワークを採用している。
このモデルは文字と単語の認識において良好な結果が得られ、また、未知のデータでテストされた文字の認識においても有望な結果が得られた。
論文 参考訳(メタデータ) (2020-09-04T02:49:17Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。