論文の概要: DualTSR: Unified Dual-Diffusion Transformer for Scene Text Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.14207v1
- Date: Sun, 15 Mar 2026 03:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.669248
- Title: DualTSR: Unified Dual-Diffusion Transformer for Scene Text Image Super-Resolution
- Title(参考訳): DualTSR:Scene Text Image Super-Resolutionのための統合Dual-Diffusion Transformer
- Authors: Axi Niu, Kang Zhang, Qingsen Yan, Hao Jin, Jinqiu Sun, Yanning Zhang,
- Abstract要約: Scene Text Image Super-Resolutionは、低解像度のテキスト画像における高解像度の詳細を復元することを目的としている。
しかし、既存の手法は、しばしば外部光学文字認識(OCR)モデルに依存している。
両問題に対処する統合エンドツーエンドフレームワークであるDualTSRを紹介する。
- 参考スコア(独自算出の注目度): 52.962204748003394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Image Super-Resolution (STISR) aims to restore high-resolution details in low-resolution text images, which is crucial for both human readability and machine recognition. Existing methods, however, often depend on external Optical Character Recognition (OCR) models for textual priors or rely on complex multi-component architectures that are difficult to train and reproduce. In this paper, we introduce DualTSR, a unified end-to-end framework that addresses both issues. DualTSR employs a single multimodal transformer backbone trained with a dual diffusion objective. It simultaneously models the continuous distribution of high-resolution images via Conditional Flow Matching and the discrete distribution of textual content via discrete diffusion. This shared design enables visual and textual information to interact at every layer, allowing the model to infer text priors internally instead of relying on an external OCR module. Compared with prior multi-branch diffusion systems, DualTSR offers a simpler end-to-end formulation with fewer hand-crafted components. Experiments on synthetic Chinese benchmarks and a curated real-world evaluation protocol show that DualTSR achieves strong perceptual quality and text fidelity.
- Abstract(参考訳): Scene Text Image Super-Resolution (STISR) は、人間の読みやすさと機械学習の両方に不可欠である低解像度テキスト画像における高解像度の詳細を復元することを目的としている。
しかし、既存の手法は、しばしばテキスト先行の外部光学文字認識(OCR)モデルに依存するか、あるいは訓練や再現が難しい複雑な多成分アーキテクチャに依存している。
本稿では,両問題に対処する統合エンドツーエンドフレームワークであるDualTSRを紹介する。
DualTSRは、二重拡散目標で訓練された単一のマルチモーダルトランスフォーマーバックボーンを使用している。
コンディションフローマッチングによる高解像度画像の連続分布と、離散拡散によるテキストコンテンツの離散分布を同時にモデル化する。
この共有設計により、視覚的およびテキスト的情報が各層で相互作用し、外部のOCRモジュールに頼るのではなく、内部でテキスト先行を推論することができる。
従来のマルチブランチ拡散システムと比較して、DualTSRは手作りの部品が少ないシンプルなエンドツーエンドの定式化を提供する。
合成中国語ベンチマークの実験と実世界評価プロトコルにより、DualTSRは強い知覚品質とテキストの忠実性を達成することが示された。
関連論文リスト
- Disentangled Textual Priors for Diffusion-based Image Super-Resolution [41.71306518338786]
Image Super-Resolutionは、劣化した低解像度入力から高解像度画像を再構成することを目的としている。
既存のアプローチは、グローバルなレイアウトとローカルな詳細を混ぜ合わせた、絡み合った、あるいは粗い粒度の前のものに依存することが多い。
DTPSRは,2つの相補的な次元に絡み合ったテキストの先行処理を導入する新しい拡散型SRフレームワークである。
論文 参考訳(メタデータ) (2026-03-08T03:02:55Z) - Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文 参考訳(メタデータ) (2026-01-07T19:19:44Z) - Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval [11.724675700368316]
Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。
マルチモーダルアライメントのために設計された高効率・データ効率の新たな生成編集フレームワークであるFusion-Diffを提案する。
論文 参考訳(メタデータ) (2025-12-01T13:04:55Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Dual-branch Prompting for Multimodal Machine Translation [9.903997553625253]
本稿では,D2P-MMTを提案する。D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT)。
D2P-MMTは、事前学習した拡散モデルによって生成されたソーステキストと再構成画像のみを必要とする。
Multi30Kデータセットの実験により、D2P-MMTは既存の最先端手法よりも優れた翻訳性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-23T15:22:51Z) - Improving Consistency in Diffusion Models for Image Super-Resolution [28.945663118445037]
拡散法における2種類の矛盾を観測する。
セマンティックとトレーニング-推論の組み合わせを扱うために、ConsisSRを導入します。
本手法は,既存拡散モデルにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - DARTS: Double Attention Reference-based Transformer for Super-resolution [12.424350934766704]
参照ベース画像超解像のための変換器モデルであるDARTSを提案する。
DARSは2つの画像分布の合同表現を学習し、低解像度の入力画像の内容を強化する。
変換器を用いたモデルが最先端のモデルと競合することを示す。
論文 参考訳(メタデータ) (2023-07-17T20:57:16Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。