論文の概要: Scene Text Recognition with Permuted Autoregressive Sequence Models
- arxiv url: http://arxiv.org/abs/2207.06966v1
- Date: Thu, 14 Jul 2022 14:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 12:34:57.756195
- Title: Scene Text Recognition with Permuted Autoregressive Sequence Models
- Title(参考訳): 可変自己回帰列モデルを用いたシーンテキスト認識
- Authors: Darwin Bautista, Rowel Atienza
- Abstract要約: コンテキスト対応STRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用する。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARおよびコンテキスト対応AR推論を実現し、双方向コンテキストを用いた反復的洗練を実現する。
- 参考スコア(独自算出の注目度): 15.118059441365343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context-aware STR methods typically use internal autoregressive (AR) language
models (LM). Inherent limitations of AR models motivated two-stage methods
which employ an external LM. The conditional independence of the external LM on
the input image may cause it to erroneously rectify correct predictions,
leading to significant inefficiencies. Our method, PARSeq, learns an ensemble
of internal AR LMs with shared weights using Permutation Language Modeling. It
unifies context-free non-AR and context-aware AR inference, and iterative
refinement using bidirectional context. Using synthetic training data, PARSeq
achieves state-of-the-art (SOTA) results in STR benchmarks (91.9% accuracy) and
more challenging datasets. It establishes new SOTA results (96.0% accuracy)
when trained on real data. PARSeq is optimal on accuracy vs parameter count,
FLOPS, and latency because of its simple, unified structure and parallel token
processing. Due to its extensive use of attention, it is robust on
arbitrarily-oriented text which is common in real-world images. Code,
pretrained weights, and data are available at: https://github.com/baudm/parseq.
- Abstract(参考訳): コンテキスト対応STRメソッドは通常、内部自己回帰言語モデル(LM)を使用する。
ARモデルの本質的な制限は、外部LMを使用する2段階の手法を動機づけた。
入力画像上の外部LMの条件付き独立性は、誤って正しい予測を正し、重大な非効率をもたらす可能性がある。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARとコンテキスト対応ARの推論を統一し、双方向コンテキストを用いた反復的改善を行う。
合成トレーニングデータを使用することで、PARSeqはSTRベンチマーク(91.9%の精度)とより困難なデータセットを達成している。
実データでトレーニングすると、新たなsota結果(96.0%精度)が確立される。
PARSeqは、単純で統一された構造と並列トークン処理のため、パラメータカウント、FLOPS、レイテンシーに対して最適である。
注意が広く使われているため、現実世界のイメージに共通する任意指向のテキストに頑健である。
コード、トレーニング済みのウェイト、データはhttps://github.com/baudm/parseq.com/で入手できる。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - LLM-based speaker diarization correction: A generalizable approach [0.0]
ダイアリゼーション補正のための大規模言語モデル(LLM)を後処理のステップとして使用することを検討した。
モデルがフィッシャーコーパスのホールドアウトデータセットと独立データセットのダイアリゼーション精度を向上させる能力を測定した。
論文 参考訳(メタデータ) (2024-06-07T13:33:22Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Improving AMR Parsing with Sequence-to-Sequence Pre-training [39.33133978535497]
本稿では,Sequence-to-Sequence (seq2seq) AMR解析に焦点を当てる。
単体および関節の両方で事前学習モデルを構築するために,Seq2seq事前学習手法を提案する。
実験の結果,シングルモデルとジョイントモデルの両方で性能が有意に向上した。
論文 参考訳(メタデータ) (2020-10-05T04:32:47Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。