論文の概要: OmniText: A Training-Free Generalist for Controllable Text-Image Manipulation
- arxiv url: http://arxiv.org/abs/2510.24093v1
- Date: Tue, 28 Oct 2025 06:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.802521
- Title: OmniText: A Training-Free Generalist for Controllable Text-Image Manipulation
- Title(参考訳): OmniText: コントロール可能なテキストイメージ操作のためのトレーニング不要のジェネラリスト
- Authors: Agus Gunawan, Samuel Teodoro, Yun Chen, Soo Ye Kim, Jihyong Oh, Munchurl Kim,
- Abstract要約: 我々は、幅広いテキスト画像操作タスクを実行できる訓練不要のジェネラリストであるOmniTextを提案する。
具体的には,テキストの削除を可能にするクロスアテンション機構とセルフアテンション機構の2つの重要な特性について検討する。
多様なTIMタスクを評価するためのベンチマークデータセットであるOmniText-Benchを提案する。
- 参考スコア(独自算出の注目度): 34.080740212072655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in diffusion-based text synthesis have demonstrated significant performance in inserting and editing text within images via inpainting. However, despite the potential of text inpainting methods, three key limitations hinder their applicability to broader Text Image Manipulation (TIM) tasks: (i) the inability to remove text, (ii) the lack of control over the style of rendered text, and (iii) a tendency to generate duplicated letters. To address these challenges, we propose OmniText, a training-free generalist capable of performing a wide range of TIM tasks. Specifically, we investigate two key properties of cross- and self-attention mechanisms to enable text removal and to provide control over both text styles and content. Our findings reveal that text removal can be achieved by applying self-attention inversion, which mitigates the model's tendency to focus on surrounding text, thus reducing text hallucinations. Additionally, we redistribute cross-attention, as increasing the probability of certain text tokens reduces text hallucination. For controllable inpainting, we introduce novel loss functions in a latent optimization framework: a cross-attention content loss to improve text rendering accuracy and a self-attention style loss to facilitate style customization. Furthermore, we present OmniText-Bench, a benchmark dataset for evaluating diverse TIM tasks. It includes input images, target text with masks, and style references, covering diverse applications such as text removal, rescaling, repositioning, and insertion and editing with various styles. Our OmniText framework is the first generalist method capable of performing diverse TIM tasks. It achieves state-of-the-art performance across multiple tasks and metrics compared to other text inpainting methods and is comparable with specialist methods.
- Abstract(参考訳): 拡散型テキスト合成の最近の進歩は、インペイントによる画像中のテキストの挿入と編集において顕著な性能を示した。
しかし、テキストの塗装法の可能性にもかかわらず、3つの重要な制限は、より広範なテキスト画像操作(TIM)タスクの適用性を妨げている。
(i)テキストを削除できないこと。
(二)描画テキストの様式の制御の欠如、及び
(三)重複文字を生成する傾向があること。
これらの課題に対処するために,幅広いTIMタスクを実行できるトレーニング不要のジェネラリストであるOmniTextを提案する。
具体的には、テキストの削除を可能にするクロスアテンション機構とセルフアテンション機構の2つの重要な特性について検討し、テキストスタイルとコンテンツの両方を制御できるようにする。
本研究は,本モデルがテキストに焦点を絞る傾向を緩和し,テキストの幻覚を低減させる自己意図反転を適用して,テキストの除去を実現することを明らかにする。
さらに、特定のテキストトークンの確率が上がると、テキストの幻覚が減少するので、クロスアテンションを再分配する。
テキストの描画精度を向上させるクロスアテンションコンテンツ損失と、スタイルのカスタマイズを容易にする自己アテンションスタイル損失という、潜在最適化フレームワークに新たなロス関数を導入する。
さらに,多様なTIMタスクを評価するためのベンチマークデータセットであるOmniText-Benchを提案する。
入力画像、マスク付きターゲットテキスト、スタイル参照を含み、テキスト削除、再スケーリング、再配置、様々なスタイルによる挿入と編集などの様々なアプリケーションをカバーする。
我々のOmniTextフレームワークは、多様なTIMタスクを実行できる最初のジェネラリスト手法である。
複数のタスクやメトリクスにまたがる最先端のパフォーマンスを、他のテキストのインペイント手法と比べて達成し、専門的な手法に匹敵する。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.645654441900668]
様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。
本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。
また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:39:39Z) - CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。