論文の概要: Chandojnanam: A Sanskrit Meter Identification and Utilization System
- arxiv url: http://arxiv.org/abs/2209.14924v1
- Date: Thu, 29 Sep 2022 16:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:29:15.599194
- Title: Chandojnanam: A Sanskrit Meter Identification and Utilization System
- Title(参考訳): Chandojnanam: サンスクリットメーターの識別と利用システム
- Authors: Hrishikesh Terdalkar, Arnab Bhattacharya
- Abstract要約: Chandojn=anamはWebベースのサンスクリットメーター(Chanda)の識別と利用システムである。
このシステムは光学式文字認識(OCR)エンジンを用いてアップロードされた画像からメートルの識別をサポートする。
行や節が既知のメートルと正確に一致しないとき、Chandojn=anam はファジィ(近似的、閉的)の一致を見つけることができる。
- 参考スコア(独自算出の注目度): 6.026434631807453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Chandoj\~n\=anam, a web-based Sanskrit meter (Chanda)
identification and utilization system. In addition to the core functionality of
identifying meters, it sports a friendly user interface to display the
scansion, which is a graphical representation of the metrical pattern. The
system supports identification of meters from uploaded images by using optical
character recognition (OCR) engines in the backend. It is also able to process
entire text files at a time. The text can be processed in two modes, either by
treating it as a list of individual lines, or as a collection of verses. When a
line or a verse does not correspond exactly to a known meter, Chandoj\~n\=anam
is capable of finding fuzzy (i.e., approximate and close) matches based on
sequence matching. This opens up the scope of a meter-based correction of
erroneous digital corpora. The system is available for use at
https://sanskrit.iitk.ac.in/jnanasangraha/chanda/, and the source code in the
form of a Python library is made available at
https://github.com/hrishikeshrt/chanda/.
- Abstract(参考訳): ウェブベースのサンスクリットメーター(Chanda)の識別・利用システムであるChandj\~n\=anamを提案する。
メーターを識別するコア機能に加えて、メトリックパターンのグラフィカルな表現であるスキャンを表示するためのフレンドリーなユーザインターフェースも備えている。
このシステムは、バックエンドに光学式文字認識(OCR)エンジンを用いてアップロードされた画像からメートルの識別をサポートする。
また、テキストファイル全体を一度に処理することもできる。
テキストは2つのモードで処理でき、個々の行のリストとして扱うか、詩のコレクションとして扱うことができる。
行や節が既知のメートルと正確に一致しないとき、Chandoj\~n\=anam はシーケンスマッチングに基づいてファジィ(近似および閉)マッチングを見つけることができる。
これにより、誤ったデジタルコーパスのメーターベースの補正の範囲が開放される。
このシステムはhttps://sanskrit.iitk.ac.in/jnanasangraha/chanda/で利用可能であり、Pythonライブラリの形式のソースコードはhttps://github.com/hrishikeshrt/chanda/で入手できる。
関連論文リスト
- A Novel Implementation of Marksheet Parser Using PaddleOCR [0.0]
OCRを使ってアップロードされたマークシートを読み、オンライン形式で行や列を自動的に埋めるシステムを構築した。
システムはテストされ、7つの州で評価された。
論文 参考訳(メタデータ) (2024-06-04T06:51:03Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch [63.12810494378133]
テキスト記述とスケッチを入力として,画像検索のためのエンドツーエンドのトレーニング可能なモデルを提案する。
テキストに加え、入力スケッチ(下図)を使用することで、従来のテキストベースの画像検索と比較して、検索リコールが大幅に増加することを実証的に実証した。
論文 参考訳(メタデータ) (2022-08-05T18:43:37Z) - Detection of Furigana Text in Images [1.77898701462905]
振仮名(ふりがな)は、日本語の音符。
これらの検出は光学文字認識(OCR)の性能向上に役立つ。
本プロジェクトは、日本の書物や漫画における振替の検出に焦点を当てている。
論文 参考訳(メタデータ) (2022-07-08T15:27:19Z) - KOHTD: Kazakh Offline Handwritten Text Dataset [0.0]
広範囲にわたるカザフスタンのオフライン手書きテキストデータセット(KOHTD)を提案する。
KOHTDには3000枚の手書き試験用紙と140335枚以上の分割画像があり、約922010のシンボルがある。
我々は,CTC法や注意法など,単語・行認識に人気の高いテキスト認識手法を多用した。
論文 参考訳(メタデータ) (2021-09-22T16:19:38Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。