論文の概要: Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition
- arxiv url: http://arxiv.org/abs/2105.06229v1
- Date: Thu, 13 May 2021 12:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:57:13.402438
- Title: Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition
- Title(参考訳): シーンテキスト認識における明示的タスクと暗黙的タスクによる相互特徴学習
- Authors: Hui Jiang and Yunlu Xu and Zhanzhan Cheng and Shiliang Pu and Yi Niu
and Wenqi Ren and Fei Wu and Wenming Tan
- Abstract要約: 本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
- 参考スコア(独自算出の注目度): 60.36540008537054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text recognition is a popular topic for its broad applications. In this work,
we excavate the implicit task, character counting within the traditional text
recognition, without additional labor annotation cost. The implicit task plays
as an auxiliary branch for complementing the sequential recognition. We design
a two-branch reciprocal feature learning framework in order to adequately
utilize the features from both the tasks. Through exploiting the complementary
effect between explicit and implicit tasks, the feature is reliably enhanced.
Extensive experiments on 7 benchmarks show the advantages of the proposed
methods in both text recognition and the new-built character counting tasks. In
addition, it is convenient yet effective to equip with variable networks and
tasks. We offer abundant ablation studies, generalizing experiments with deeper
understanding on the tasks. Code is available.
- Abstract(参考訳): テキスト認識は幅広い用途で人気のあるトピックである。
本研究では,従来のテキスト認識における文字数という暗黙的な課題を,追加の作業注記コストを伴わずに発掘する。
暗黙的タスクはシーケンシャル認識を補完する補助ブランチとして機能する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
明示的なタスクと暗黙的なタスクの補完効果を活用することで、この機能は確実に強化される。
7つのベンチマークの大規模な実験は、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点を示している。
さらに、可変ネットワークやタスクを備えるのも便利だが効果的である。
我々はアブレーション研究を豊富に行い,課題を深く理解した実験を一般化する。
コードは利用可能。
関連論文リスト
- Leveraging knowledge distillation for partial multi-task learning from multiple remote sensing datasets [2.1178416840822023]
ターゲットタスクの1つにトレーニング例をアノテートする部分的マルチタスク学習は、リモートセンシングにおいて有望なアイデアである。
本稿では, 知識蒸留を用いて, 代替課題における基礎的真理の必要性を代替し, その性能を向上させることを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:48:50Z) - Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection [7.864892339833315]
本稿では,共同モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークを提案する。
このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。
QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。
論文 参考訳(メタデータ) (2024-04-14T14:06:42Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - Towards All-around Knowledge Transferring: Learning From Task-irrelevant
Labels [44.036667329736225]
既存の取り組みは、この問題に取り組むために、タスク関連知識を他の類似データから移すことに重点を置いている。
これまでタスク非関連の特徴の影響を調査する大規模な研究は行われていない。
本稿では,タスク非関連ラベルから主に抽出されるタスク非関連特徴を利用するタスク非関連変換学習を提案する。
論文 参考訳(メタデータ) (2020-11-17T06:43:58Z) - Auxiliary Learning by Implicit Differentiation [54.92146615836611]
補助的なタスクによるニューラルネットワークのトレーニングは、関心のあるメインタスクのパフォーマンスを改善するための一般的なプラクティスである。
そこで我々は,暗黙の識別に基づく両課題を対象とした新しいフレームワークAuxiLearnを提案する。
まず、有用な補助関数が知られている場合、全ての損失を1つのコヒーレントな目的関数に組み合わせたネットワークの学習を提案する。
第二に、有用な補助タスクが知られていない場合、意味のある新しい補助タスクを生成するネットワークの学習方法について述べる。
論文 参考訳(メタデータ) (2020-06-22T19:35:07Z) - A Cross-Task Analysis of Text Span Representations [52.28565379517174]
最適なスパン表現はタスクによって異なり、個々のタスクの異なる側面でも異なることが分かる。
また、スパン表現の選択は、微調整エンコーダよりも、固定された事前訓練エンコーダによる影響が大きいことも判明した。
論文 参考訳(メタデータ) (2020-06-06T13:37:51Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。