Fugu-MT 論文翻訳(概要): Development of a New Image-to-text Conversion System for Pashto, Farsi and Traditional Chinese

論文の概要: Development of a New Image-to-text Conversion System for Pashto, Farsi and Traditional Chinese

arxiv url: http://arxiv.org/abs/2005.08650v1
Date: Fri, 8 May 2020 17:58:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 11:30:51.658472
Title: Development of a New Image-to-text Conversion System for Pashto, Farsi and Traditional Chinese
Title（参考訳）: パシュト語、ファルシ語、伝統中国語のための新しい画像からテキストへの変換システムの開発
Authors: Marek Rychlik, and Dwight Nwaigwe and Yan Han and Dylan Murphy
Abstract要約: 我々は,複数の言語や書き起こしシステムのための,より正確な画像からテキストへの変換ソフトウェアを開発した。その中には、FarsiとPashtoのカーシブ・スクリプト、ラテン・カーシブ・スクリプトが含まれる。また、非帰納的だが、65,000文字からなる非常に大きな文字セットを特徴とする漢文へのアプローチについても述べる。
参考スコア（独自算出の注目度）: 0.6719751155411076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We report upon the results of a research and prototype building project \emph{Worldly~OCR} dedicated to developing new, more accurate image-to-text conversion software for several languages and writing systems. These include the cursive scripts Farsi and Pashto, and Latin cursive scripts. We also describe approaches geared towards Traditional Chinese, which is non-cursive, but features an extremely large character set of 65,000 characters. Our methodology is based on Machine Learning, especially Deep Learning, and Data Science, and is directed towards vast quantities of original documents, exceeding a billion pages. The target audience of this paper is a general audience with interest in Digital Humanities or in retrieval of accurate full-text and metadata from digital images.
Abstract（参考訳）: 我々は,複数の言語や書記システムのための,より正確な画像からテキストへの変換ソフトウェアを開発することを目的とした,研究・プロトタイプ構築プロジェクト \emph{Worldly~OCR} の成果について報告する。その中には、FarsiとPashtoのカーシブ・スクリプト、ラテン・カーシブ・スクリプトが含まれる。また、非帰納的だが、65,000文字からなる非常に大きな文字セットを特徴とする中国語へのアプローチについても述べる。私たちの方法論は機械学習、特にディープラーニング、データサイエンスに基づいており、数十億ページを超える膨大なオリジナルドキュメントを対象としています。本論文の目的は,デジタルヒューマニティや,デジタル画像から正確なフルテキストやメタデータを検索することに関心を持つ一般オーディエンスである。

関連論文リスト

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。本稿では,文字位置の符号化と位置の符号化手法を提案する。我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-30T09:55:39Z)
Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文参考訳（メタデータ） (2024-11-07T00:06:53Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding [57.22231959529641]
Hunyuan-DiTは、英語と中国語の両方を詳細に理解したテキスト・画像拡散変換器である。詳細な言語理解のために、画像のキャプションを洗練させるためにマルチモーダル大言語モデルを訓練する。
論文参考訳（メタデータ） (2024-05-14T16:33:25Z)
Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。ベンガル語話者は約3億人、ネパール語話者は約4000万人である。その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文参考訳（メタデータ） (2024-04-03T00:21:14Z)
MetaScript: Few-Shot Handwritten Chinese Content Generation via Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文参考訳（メタデータ） (2023-12-25T17:31:19Z)
Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文参考訳（メタデータ） (2023-09-03T05:33:16Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文参考訳（メタデータ） (2023-02-03T11:17:59Z)
NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (2022-07-26T17:34:11Z)
Digital Editions as Distant Supervision for Layout Analysis of Printed Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文参考訳（メタデータ） (2021-12-23T16:51:53Z)
Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文参考訳（メタデータ） (2021-09-28T16:51:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。