論文の概要: Reading Chinese in Natural Scenes with a Bag-of-Radicals Prior
- arxiv url: http://arxiv.org/abs/2210.02576v1
- Date: Wed, 5 Oct 2022 21:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:35:10.747703
- Title: Reading Chinese in Natural Scenes with a Bag-of-Radicals Prior
- Title(参考訳): 中国語を自然の場面で読む
- Authors: Liu Yongbin, Liu Qingjie, Chen Jiaxin, Wang Yunhong
- Abstract要約: 我々は、ラテンデータセットでよく機能する一連の古典的手法を評価し、顕著な性能低下を見出した。
中国におけるデータセットの性能向上を目的として,新しいラジカル埋め込み(RE)表現を提案する。
さらに,マルチタスクトレーニングの指導信号としてラジカルの袋を用いて,モデルのイデオロギー的構造知覚を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) on Latin datasets has been extensively studied
in recent years, and state-of-the-art (SOTA) models often reach high accuracy.
However, the performance on non-Latin transcripts, such as Chinese, is not
satisfactory. In this paper, we collect six open-source Chinese STR datasets
and evaluate a series of classic methods performing well on Latin datasets,
finding a significant performance drop. To improve the performance on Chinese
datasets, we propose a novel radical-embedding (RE) representation to utilize
the ideographic descriptions of Chinese characters. The ideographic
descriptions of Chinese characters are firstly converted to bags of radicals
and then fused with learnable character embeddings by a
character-vector-fusion-module (CVFM). In addition, we utilize a bag of
radicals as supervision signals for multi-task training to improve the
ideographic structure perception of our model. Experiments show performance of
the model with RE + CVFM + multi-task training is superior compared with the
baseline on six Chinese STR datasets. In addition, we utilize a bag of radicals
as supervision signals for multi-task training to improve the ideographic
structure perception of our model. Experiments show performance of the model
with RE + CVFM + multi-task training is superior compared with the baseline on
six Chinese STR datasets.
- Abstract(参考訳): ラテンデータセット上のシーンテキスト認識(STR)は近年広く研究されており、最新技術(SOTA)モデルは高い精度に達することが多い。
しかし、中国語などのラテン語以外の写本の演奏は満足できない。
本稿では,6つのオープンソースの中国語 STR データセットを収集し,ラテン系データセットでよく動作する一連の古典的手法を評価する。
中国語データセットの性能向上のために,漢字のイデオロギー記述を利用する新しいラディカル埋め込み(RE)表現を提案する。
漢字のイデオロギー記述はまずラジカルの袋に変換され、その後キャラクタ・ベクター・フュージョン・モジュール(cvfm)によって学習可能な文字埋め込みと融合される。
さらに,マルチタスクトレーニングのための監督信号としてラジカルの袋を用い,モデルのイデオロギー構造知覚を改善する。
実験の結果,RE+CVFM+マルチタスクトレーニングによるモデルの性能は,中国の6つのSTRデータセットのベースラインよりも優れていた。
さらに,マルチタスクトレーニングのための監督信号としてラジカルの袋を用い,モデルのイデオロギー構造知覚を改善する。
実験の結果,RE+CVFM+マルチタスクトレーニングによるモデルの性能は,中国の6つのSTRデータセットのベースラインよりも優れていた。
関連論文リスト
- A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking [26.93594761258908]
中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
論文 参考訳(メタデータ) (2022-07-17T03:12:27Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Multi-Task Learning for Cross-Lingual Abstractive Summarization [26.41478399867083]
翻訳ペアや単言語抽象要約データなどの既存の真のデータをトレーニングに導入する。
提案手法であるTransumは,入力文の先頭に特別なトークンを付加し,目的タスクを示す。
実験結果から,Transumは擬似言語間要約データのみを用いて学習したモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2020-10-15T04:03:00Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。