論文の概要: On consistency scores in text data with an implementation in R
- arxiv url: http://arxiv.org/abs/2101.05225v1
- Date: Wed, 13 Jan 2021 17:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 11:16:46.416768
- Title: On consistency scores in text data with an implementation in R
- Title(参考訳): Rの実装によるテキストデータの一貫性スコアについて
- Authors: Ke-Li Chiu and Rohan Alexander
- Abstract要約: pdfから抽出したテキストをn-gramモデルを用いて再現可能なクリーニング処理を行う。
提案手法は,従来のテキストを刺激として用いたこれらのモデルから生成された,あるいは予想されるテキストと比較する。
この過程を導くために、モデルによって期待されるテキストの割合を指す一貫性スコアの概念を紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a reproducible cleaning process for the text
extracted from PDFs using n-gram models. Our approach compares the originally
extracted text with the text generated from, or expected by, these models using
earlier text as stimulus. To guide this process, we introduce the notion of a
consistency score, which refers to the proportion of text that is expected by
the model. This is used to monitor changes during the cleaning process, and
across different corpuses. We illustrate our process on text from the book Jane
Eyre and introduce both a Shiny application and an R package to make our
process easier for others to adopt.
- Abstract(参考訳): 本稿では,n-gramモデルを用いてPDFから抽出したテキストの再現可能なクリーニングプロセスを提案する。
提案手法は,従来のテキストを刺激として用いたこれらのモデルから生成された,あるいは予想されるテキストと比較する。
このプロセスを導くために,モデルが期待するテキストの割合を示す一貫性スコアの概念を導入する。
これは、クリーニングプロセス中、および異なるコーパス間での変化を監視するために使用される。
私たちは、Jane Eyreという本からテキストでプロセスを説明し、S ShinyアプリケーションとRパッケージの両方を導入して、プロセスを他の人が簡単に採用できるようにします。
関連論文リスト
- Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - TextMatcher: Cross-Attentional Neural Network to Compare Image and Text [0.0]
この問題に特化して設計された最初の機械学習モデルを考案する。
一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。
銀行のキーの自動処理に関する現実的なアプリケーションシナリオとして,TextMatcherを紹介した。
論文 参考訳(メタデータ) (2022-05-11T14:01:12Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。