論文の概要: Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models
- arxiv url: http://arxiv.org/abs/2007.00083v1
- Date: Tue, 30 Jun 2020 19:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:55:48.098127
- Title: Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models
- Title(参考訳): 人間心理物理学を用いたテキスト認識モデルにおける一般化評価
- Authors: Sahar Siddiqui, Elena Sizikova, Gemma Roig, Najib J. Majaj, Denis G.
Pelli
- Abstract要約: 我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
- 参考スコア(独自算出の注目度): 7.294729862905325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition models have advanced greatly in recent years. Inspired
by human reading we characterize two important scene text recognition models by
measuring their domains i.e. the range of stimulus images that they can read.
The domain specifies the ability of readers to generalize to different word
lengths, fonts, and amounts of occlusion. These metrics identify strengths and
weaknesses of existing models. Relative to the attention-based (Attn) model, we
discover that the connectionist temporal classification (CTC) model is more
robust to noise and occlusion, and better at generalizing to different word
lengths. Further, we show that in both models, adding noise to training images
yields better generalization to occlusion. These results demonstrate the value
of testing models till they break, complementing the traditional data science
focus on optimizing performance.
- Abstract(参考訳): 近年,シーンテキスト認識モデルが大きく進歩している。
人間の読みにインスパイアされた2つの重要なシーンテキスト認識モデルについて,その領域,すなわち読み取ることができる刺激画像の範囲を測定することで特徴付ける。
このドメインは、読者が異なる単語の長さ、フォント、および閉塞量の一般化を行う能力を指定する。
これらのメトリクスは、既存のモデルの強みと弱みを特定する。
注意に基づく(Attn)モデルと比較して、結合性時間分類(CTC)モデルは雑音や閉塞に対してより堅牢であり、単語長の一般化がより優れていることが分かる。
さらに,いずれのモデルにおいても,訓練画像にノイズを加えると咬合の一般化が向上することを示す。
これらの結果は、失敗するまでのテストモデルの価値を示し、パフォーマンスの最適化に重点を置く従来のデータサイエンスを補完する。
関連論文リスト
- ViGoR: Improving Visual Grounding of Large Vision Language Models with
Fine-Grained Reward Modeling [37.19116437843919]
大規模視覚言語モデル(LVLM)は、実世界では前例のない推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素を幻覚させるなどのエラーが発生する。
我々は,LVLMの視覚的グラウンド化を大幅に向上させるために,細粒度報酬モデリングを利用した新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Few-shot Domain-Adaptive Visually-fused Event Detection from Text [13.189886554546929]
本稿では、いくつかのラベル付き画像テキストペアデータポイントでトレーニング可能な、ドメイン適応型視覚融合イベント検出手法を提案する。
具体的には,視覚的文脈がない場合にテキストから画像を生成する視覚的イマジネータ手法を提案する。
我々のモデルは、事前学習された視覚言語モデルの能力を活用でき、数ショットで訓練することができる。
論文 参考訳(メタデータ) (2023-05-04T00:10:57Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。