論文の概要: Open-set Text Recognition via Character-Context Decoupling
- arxiv url: http://arxiv.org/abs/2204.05535v1
- Date: Tue, 12 Apr 2022 05:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:12:06.146929
- Title: Open-set Text Recognition via Character-Context Decoupling
- Title(参考訳): 文字コンテキストデカップリングによるオープンセットテキスト認識
- Authors: Chang Liu, Chun Yang, Xu-Cheng Yin
- Abstract要約: オープンセットテキスト認識タスクは、評価中に新しい文字を認識する余分な能力を必要とする、新たな課題である。
現状の手法における限られた性能の大きな原因は,個々の文字の視覚的情報に対する文脈情報の相違である,と我々は主張する。
文脈情報と文字視覚情報を分離することでこの問題を軽減するために,文字コンテキスト分離フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.2819099852748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open-set text recognition task is an emerging challenge that requires an
extra capability to cognize novel characters during evaluation. We argue that a
major cause of the limited performance for current methods is the confounding
effect of contextual information over the visual information of individual
characters. Under open-set scenarios, the intractable bias in contextual
information can be passed down to visual information, consequently impairing
the classification performance. In this paper, a Character-Context Decoupling
framework is proposed to alleviate this problem by separating contextual
information and character-visual information. Contextual information can be
decomposed into temporal information and linguistic information. Here, temporal
information that models character order and word length is isolated with a
detached temporal attention module. Linguistic information that models n-gram
and other linguistic statistics is separated with a decoupled context anchor
mechanism. A variety of quantitative and qualitative experiments show that our
method achieves promising performance on open-set, zero-shot, and close-set
text recognition datasets.
- Abstract(参考訳): オープンセットテキスト認識タスクは、評価中に新しい文字を認識する余分な能力を必要とする、新たな課題である。
現状の手法における限られた性能の大きな原因は,個々の文字の視覚的情報に対する文脈情報の影響である。
オープンセットのシナリオでは、コンテキスト情報の難解なバイアスが視覚情報に受け継がれ、結果として分類性能が損なわれる。
本稿では,文脈情報と文字視覚情報を分離することにより,この問題を軽減するために,文字コンテキスト分離フレームワークを提案する。
文脈情報は時間情報と言語情報に分解することができる。
ここでは、文字順と単語長をモデル化する時間情報を分離した時間的注意モジュールで分離する。
n-gramや他の言語統計をモデル化する言語情報は、分離されたコンテキストアンカー機構によって分離される。
様々な定量的および定性的な実験により,提案手法はオープンセット,ゼロショット,クローズセットのテキスト認識データセット上で有望な性能を達成することを示す。
関連論文リスト
- MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - Putting Context in Context: the Impact of Discussion Structure on Text
Classification [13.15873889847739]
本稿では,英語における姿勢検出のための大規模データセットに関する一連の実験を提案する。
異なる種類の文脈情報の寄与を評価する。
構造情報はテキスト分類には非常に有用であるが,特定の状況下でのみ有用であることを示す。
論文 参考訳(メタデータ) (2024-02-05T12:56:22Z) - Blending Reward Functions via Few Expert Demonstrations for Faithful and
Accurate Knowledge-Grounded Dialogue Generation [22.38338205905379]
我々は、新しい報酬関数を導入することで上記の課題を克服するために強化学習アルゴリズムを活用する。
我々の報奨関数は、精度測定値と忠実度測定値を組み合わせて、生成された応答のバランスの取れた品質判定を提供する。
論文 参考訳(メタデータ) (2023-11-02T02:42:41Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z) - Matching Text with Deep Mutual Information Estimation [0.0]
本稿では,深い相互情報推定を組み込んだ汎用テキストマッチングのためのニューラルネットワークを提案する。
提案手法は,Deep Info Max (TIM) を用いたテキストマッチングであり,表現の教師なし学習手法と統合されている。
自然言語推論,パラフレーズ識別,解答選択など,いくつかのタスクにおけるテキストマッチング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-09T15:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。