論文の概要: ConText: Driving In-context Learning for Text Removal and Segmentation
- arxiv url: http://arxiv.org/abs/2506.03799v1
- Date: Wed, 04 Jun 2025 10:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.283179
- Title: ConText: Driving In-context Learning for Text Removal and Segmentation
- Title(参考訳): ConText: テキスト削除とセグメンテーションのためのコンテキスト内学習
- Authors: Fei Zhang, Pei Zhang, Baosong Yang, Fei Huang, Yanfeng Wang, Ya Zhang,
- Abstract要約: 本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。
画像除去・分離方式のタスクチェイン・コンポジトリを提案する。
また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
- 参考スコア(独自算出の注目度): 59.6299939669307
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents the first study on adapting the visual in-context learning (V-ICL) paradigm to optical character recognition tasks, specifically focusing on text removal and segmentation. Most existing V-ICL generalists employ a reasoning-as-reconstruction approach: they turn to using a straightforward image-label compositor as the prompt and query input, and then masking the query label to generate the desired output. This direct prompt confines the model to a challenging single-step reasoning process. To address this, we propose a task-chaining compositor in the form of image-removal-segmentation, providing an enhanced prompt that elicits reasoning with enriched intermediates. Additionally, we introduce context-aware aggregation, integrating the chained prompt pattern into the latent query representation, thereby strengthening the model's in-context reasoning. We also consider the issue of visual heterogeneity, which complicates the selection of homogeneous demonstrations in text recognition. Accordingly, this is effectively addressed through a simple self-prompting strategy, preventing the model's in-context learnability from devolving into specialist-like, context-free inference. Collectively, these insights culminate in our ConText model, which achieves new state-of-the-art across both in- and out-of-domain benchmarks. The code is available at https://github.com/Ferenas/ConText.
- Abstract(参考訳): 本稿では,視覚的インコンテキスト学習(V-ICL)パラダイムを光学的文字認識タスクに適用するための最初の研究について述べる。
既存のV-ICLのジェネラリストは、プロンプトとクエリ入力として単純なイメージラベル合成器を使い、クエリラベルをマスキングして所望の出力を生成するという、推論・アズ・リコンストラクションのアプローチを採用している。
この直接的なプロンプトは、モデルを挑戦的な単一ステップの推論プロセスに閉じ込める。
そこで本研究では,画像除去・分節方式のタスクチェイン・コンポジトリを提案し,よりリッチな中間体による推論を誘発する拡張プロンプトを提供する。
さらに、連鎖したプロンプトパターンを潜在クエリ表現に統合し、コンテキスト内推論を強化するコンテキスト認識アグリゲーションを導入する。
また、テキスト認識における均質なデモンストレーションの選択を複雑化する視覚的不均一性の問題についても考察する。
したがって、これは単純な自己プロンプティング戦略によって効果的に対処され、コンテキスト内学習能力がスペシャリストのような文脈自由推論に進化するのを防ぐ。
まとめると、これらの洞察は私たちのConTextモデルで頂点に達し、ドメイン内ベンチマークと外部ベンチマークの両方で新しい最先端のベンチマークを実現します。
コードはhttps://github.com/Ferenas/ConText.comから入手できる。
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Relational Contrastive Learning for Scene Text Recognition [22.131554868199782]
従来の文脈情報は、異種テキストや背景から、テキストプリミティブの関係と解釈できると論じる。
本稿では,再構成,階層化,インタラクションによるテキスト関係の強化と,RCLSTR: Contrastive Learning for Scene Text Recognitionと呼ばれる統合フレームワークの設計を提案する。
論文 参考訳(メタデータ) (2023-08-01T12:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。