Fugu-MT 論文翻訳(概要): AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss

論文の概要: AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss

arxiv url: http://arxiv.org/abs/2006.11586v1
Date: Sat, 20 Jun 2020 14:25:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 22:46:44.285752
Title: AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss
Title（参考訳）: AraDIC:画像ベースの文字埋め込みとクラスベース損失を用いたアラビア文書分類
Authors: Mahmoud Daif, Shunsuke Kitada, Hitoshi Iyatomi
Abstract要約: 本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。 AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
参考スコア（独自算出の注目度）: 7.734726150561088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Classical and some deep learning techniques for Arabic text classification often depend on complex morphological analysis, word segmentation, and hand-crafted feature engineering. These could be eliminated by using character-level features. We propose a novel end-to-end Arabic document classification framework, Arabic document image-based classifier (AraDIC), inspired by the work on image-based character embeddings. AraDIC consists of an image-based character encoder and a classifier. They are trained in an end-to-end fashion using the class balanced loss to deal with the long-tailed data distribution problem. To evaluate the effectiveness of AraDIC, we created and published two datasets, the Arabic Wikipedia title (AWT) dataset and the Arabic poetry (AraP) dataset. To the best of our knowledge, this is the first image-based character embedding framework addressing the problem of Arabic text classification. We also present the first deep learning-based text classifier widely evaluated on modern standard Arabic, colloquial Arabic and classical Arabic. AraDIC shows performance improvement over classical and deep learning baselines by 12.29% and 23.05% for the micro and macro F-score, respectively.
Abstract（参考訳）: アラビア文字分類のための古典的およびいくつかの深層学習技術は、しばしば複雑な形態解析、単語分割、手作りの特徴工学に依存している。これらは文字レベルの機能を使用することで排除できる。本稿では、画像に基づく文字埋め込みの研究に触発された、アラビア語の文書分類フレームワークであるアラビア文字分類器(AraDIC)を提案する。 AraDICは画像ベースの文字エンコーダと分類器で構成される。長期的なデータ分散問題に対処するために、クラスバランスの取れた損失を使用してエンドツーエンドでトレーニングされる。 AraDICの有効性を評価するために、アラビア語ウィキペディアのタイトル(AWT)データセットとアラビア詩(AraP)データセットの2つのデータセットを作成し、公開しました。私たちの知る限りでは、これはアラビア語のテキスト分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークです。また,現代標準アラビア語,口語アラビア語,古典アラビア語において広く評価された最初の深層学習に基づくテキスト分類器を提案する。 AraDICは、マイクロFスコアとマクロFスコアでそれぞれ12.29%と23.05%の性能改善を示している。

関連論文リスト

DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding [32.85312741808662]
1,272のキュレートされたサンプルのベンチマークであるDuwatBenchについて紹介する。このデータセットは、複雑なストロークパターン、密集したリグチュア、スタイリスティックなバリエーションなど、アラビア文字の現実的な課題を反映している。 DuwatBenchを用いて、アラビア語と多言語のマルチモーダルモデルを13種類評価し、クリーンテキストでうまく機能する一方で、書体の変化、芸術的歪み、正確な視覚的テキストアライメントに苦慮していることを示した。
論文参考訳（メタデータ） (2026-01-27T18:59:19Z)
Automatic Classification of Arabic Literature into Historical Eras [2.3419031955865517]
本稿では、ニューラルネットワークとディープラーニング技術を用いて、アラビア語のテキストを異なる時代と時代に自動的に分類する。提案モデルは、2つの公用コーパスから得られた2つのデータセットを用いて評価され、イスラム以前のテキストから現代までのテキストをカバーしている。結果は、OpenITIデータセットとAPCDデータセットを使用してバイナリ時代の分類タスクにおいて、それぞれ0.83と0.79のF1スコアから変化している。
論文参考訳（メタデータ） (2026-01-22T17:32:19Z)
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T10:18:28Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳（メタデータ） (2024-07-21T12:14:45Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文参考訳（メタデータ） (2023-06-22T16:50:40Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Huruf: An Application for Arabic Handwritten Character Recognition Using Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文参考訳（メタデータ） (2022-12-16T17:39:32Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文参考訳（メタデータ） (2021-06-29T10:42:53Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文参考訳（メタデータ） (2020-03-20T22:29:42Z)
Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文参考訳（メタデータ） (2020-01-19T09:29:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。