Fugu-MT 論文翻訳(概要): Efficient scene text image super-resolution with semantic guidance

論文の概要: Efficient scene text image super-resolution with semantic guidance

arxiv url: http://arxiv.org/abs/2403.13330v1
Date: Wed, 20 Mar 2024 06:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 17:48:13.166931
Title: Efficient scene text image super-resolution with semantic guidance
Title（参考訳）: セマンティックガイダンスを用いたシーンテキスト画像の高分解能化
Authors: LeoWu TomyEnrique, Xiangcheng Du, Kangliang Liu, Han Yuan, Zhao Zhou, Cheng Jin,
Abstract要約: 本稿では,リソース制限されたプラットフォームへのデプロイを容易にするために,SGENetと呼ばれる効率的なフレームワークを提案する。 SGENetには、スーパーレゾリューションブランチとセマンティックガイダンスブランチの2つのブランチが含まれている。そこで本研究では,テキスト情報の理解を高めるために,軽量な事前学習型認識器を意味抽出器として応用する。
参考スコア（独自算出の注目度）: 7.358143868766376
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Scene text image super-resolution has significantly improved the accuracy of scene text recognition. However, many existing methods emphasize performance over efficiency and ignore the practical need for lightweight solutions in deployment scenarios. Faced with the issues, our work proposes an efficient framework called SGENet to facilitate deployment on resource-limited platforms. SGENet contains two branches: super-resolution branch and semantic guidance branch. We apply a lightweight pre-trained recognizer as a semantic extractor to enhance the understanding of text information. Meanwhile, we design the visual-semantic alignment module to achieve bidirectional alignment between image features and semantics, resulting in the generation of highquality prior guidance. We conduct extensive experiments on benchmark dataset, and the proposed SGENet achieves excellent performance with fewer computational costs. Code is available at https://github.com/SijieLiu518/SGENet
Abstract（参考訳）: シーンテキスト画像の超高解像度化により、シーンテキスト認識の精度が大幅に向上した。しかし、既存の多くのメソッドは効率よりもパフォーマンスを重視しており、デプロイシナリオにおける軽量ソリューションの実践的な必要性を無視している。問題に直面した当社では,リソース制限されたプラットフォームへのデプロイを容易にする,SGENetと呼ばれる効率的なフレームワークを提案する。 SGENetには、スーパーレゾリューションブランチとセマンティックガイダンスブランチの2つのブランチが含まれている。そこで本研究では,テキスト情報の理解を高めるために,軽量な事前学習型認識器を意味抽出器として応用する。一方,画像特徴とセマンティクスの双方向アライメントを実現するために,視覚・セマンティックアライメントモジュールを設計し,高品質な事前ガイダンスを生成する。ベンチマークデータセットについて広範な実験を行い、提案したSGENetは計算コストを少なくして優れた性能を実現する。コードはhttps://github.com/SijieLiu518/SGENetで入手できる。

関連論文リスト

Aligning Information Capacity Between Vision and Language via Dense-to-Sparse Feature Distillation for Image-Text Matching [18.554618623593004]
既存のメソッドは通常、埋め込みの集合を学習し、各ビューのテキストに最適なマッチングを見つけ、類似性を計算する。本稿では,高密度テキスト蒸留を利用してスパーステキストの情報容量を向上させるDense-to-Sparse Feature Distilled Visual Semantic Embedding (D2S-VSE)を提案する。提案するD2S-VSEモデルは,大規模なMS-COCOおよびFlickr30Kデータセット上で広範囲に評価されている。
論文参考訳（メタデータ） (2025-03-19T07:42:24Z)
HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文参考訳（メタデータ） (2024-11-27T15:22:44Z)
Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。 MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-10-13T14:28:16Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文参考訳（メタデータ） (2023-07-19T05:08:47Z)
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文参考訳（メタデータ） (2023-06-15T00:19:13Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Improving Scene Text Image Super-resolution via Dual Prior Modulation Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文参考訳（メタデータ） (2023-02-21T02:59:37Z)
SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文参考訳（メタデータ） (2022-11-21T18:59:05Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Text-based Person Search in Full Images via Semantic-Driven Proposal Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文参考訳（メタデータ） (2021-09-27T11:42:40Z)
Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-10T11:54:49Z)
DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文参考訳（メタデータ） (2020-08-13T12:51:17Z)
Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-01-08T03:46:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。