論文の概要: STR-Cert: Robustness Certification for Deep Text Recognition on Deep
Learning Pipelines and Vision Transformers
- arxiv url: http://arxiv.org/abs/2401.05338v1
- Date: Tue, 28 Nov 2023 21:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:08:55.444116
- Title: STR-Cert: Robustness Certification for Deep Text Recognition on Deep
Learning Pipelines and Vision Transformers
- Title(参考訳): STR-Cert:ディープラーニングパイプラインと視覚変換器の深部テキスト認識のためのロバストネス認証
- Authors: Daqian Shao, Lukas Fesser, Marta Kwiatkowska
- Abstract要約: Scene Text Recognition (STR) は複雑な画像に基づくシーケンス予測問題である。
本稿では,STRモデルの最初の認証手法であるSTR-Certを提案し,DeepPolyの多面体検証フレームワークを大幅に拡張した。
6つのデータセット上でSTRモデルを認証し比較し、ロバストネス認証の効率性とスケーラビリティを実証する。
- 参考スコア(独自算出の注目度): 18.52519530244078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustness certification, which aims to formally certify the predictions of
neural networks against adversarial inputs, has become an integral part of
important tool for safety-critical applications. Despite considerable progress,
existing certification methods are limited to elementary architectures, such as
convolutional networks, recurrent networks and recently Transformers, on
benchmark datasets such as MNIST. In this paper, we focus on the robustness
certification of scene text recognition (STR), which is a complex and
extensively deployed image-based sequence prediction problem. We tackle three
types of STR model architectures, including the standard STR pipelines and the
Vision Transformer. We propose STR-Cert, the first certification method for STR
models, by significantly extending the DeepPoly polyhedral verification
framework via deriving novel polyhedral bounds and algorithms for key STR model
components. Finally, we certify and compare STR models on six datasets,
demonstrating the efficiency and scalability of robustness certification,
particularly for the Vision Transformer.
- Abstract(参考訳): ロバストネス認証は、ニューラルネットワークの敵入力に対する予測を正式に認証することを目的としており、安全クリティカルなアプリケーションにとって重要なツールの不可欠な部分となっている。
かなりの進歩にもかかわらず、既存の認証手法は、MNISTのようなベンチマークデータセット上で、畳み込みネットワークやリカレントネットワーク、最近のトランスフォーマーのような基本的なアーキテクチャに限られている。
本稿では,複雑な画像に基づくシーケンス予測問題であるシーンテキスト認識(STR)の堅牢性検証に焦点を当てる。
我々は、標準のSTRパイプラインやビジョントランスフォーマーなど、STRモデルアーキテクチャの3つのタイプに取り組みます。
本稿では,鍵となるSTRモデルコンポーネントに対する新しい多面体境界とアルゴリズムを導出し,DeepPoly多面体検証フレームワークを著しく拡張したSTRモデルの最初の認証手法STR-Certを提案する。
最後に、6つのデータセット上でSTRモデルを認証し比較し、特にVision Transformerにおけるロバストネス認証の効率性とスケーラビリティを実証する。
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - AttackNet: Enhancing Biometric Security via Tailored Convolutional Neural Network Architectures for Liveness Detection [20.821562115822182]
アタックネット(AttackNet)は、生体認証システムにおける偽りの脅威に対処するために設計された、難解な畳み込みニューラルネットワークアーキテクチャである。
低レベルの特徴抽出から高レベルのパターン識別へシームレスに移行する、階層化された防御機構を提供する。
多様なデータセットにまたがってモデルをベンチマークすることは、その長所を証明し、現代のモデルと比較して優れたパフォーマンス指標を示す。
論文 参考訳(メタデータ) (2024-02-06T07:22:50Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。