論文の概要: Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts
- arxiv url: http://arxiv.org/abs/2603.05276v1
- Date: Thu, 05 Mar 2026 15:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.294055
- Title: Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts
- Title(参考訳): ブラックボックスにこだわる:ビジュアルプロンプトによる冷凍OCRのブートストラップ
- Authors: Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov, Temirlan Sabyrbayev,
- Abstract要約: Whispererは、拡散ベースのプリプロセッサを学習し、ピクセル空間の入力に適応する視覚的プロンプトフレームワークである。
提案手法は,300kの劣化した合成テキスト画像の挑戦的データセット上で,文字誤り率(CER)の8%を絶対的に低減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the landscape of modern machine learning, frozen pre-trained models provide stability and efficiency but often underperform on specific tasks due to mismatched data distributions. This paper introduces the Whisperer, a novel visual prompting framework that learns diffusion-based preprocessors to adapt inputs in pixel space, effectively "whispering" enhancements to frozen downstream models like EasyOCR. By framing the process as behavioral cloning of stochastically discovered improvement policies, our method achieves an 8% absolute (10.6% relative) reduction in Character Error Rate (CER) on a challenging dataset of 300k degraded synthetic text images, surpassing hand-engineered baselines such as CLAHE. The key innovation is a four-stage training curriculum that uses behavioral cloning to amplify "lucky" improvements discovered through the stochastic exploration of a partially trained diffusion model. This approach is highly sample-efficient and avoids the pitfalls of traditional reinforcement learning. Crucially, we frame this not as naive reinforcement learning, but as behavioral cloning of an exploration policy: we stochastically sample intermediate diffusion outputs, select those that improve CER by chance, and then train the model to reproduce them. This bootstrapping curriculum (4 stages over 60 GPU-hours) amplifies random successes into a systematic strategy. In summary, by whispering to the frozen OCR through its inputs, we improve an imperfect classifier without touching its weights.
- Abstract(参考訳): 現代の機械学習のランドスケープでは、凍結した事前訓練されたモデルは安定性と効率性を提供するが、しばしばミスマッチしたデータ分布のために特定のタスクで過小評価される。
本稿では,拡散型プリプロセッサを学習して画素空間の入力を適応させる新しいビジュアルプロンプトフレームワークであるWhispererを紹介する。
CLAHEなどの手技ベースラインを超越した,300kの劣化した合成テキスト画像のデータセット上で文字誤り率(CER)の8%の絶対値(相対値10.6%)の低減を実現した。
鍵となる革新は、4段階の訓練カリキュラムであり、部分的に訓練された拡散モデルの確率的探索を通じて発見された「幸運な」改善を増幅するために行動クローニングを使用する。
このアプローチはサンプル効率が高く、従来の強化学習の落とし穴を避ける。
重要なことに、我々はこれを素直な強化学習ではなく、探索政策の行動的クローニングとして、中間拡散出力を確率的にサンプリングし、偶然にCERを改善するものを選び、それらを再現するためにモデルを訓練する。
このブートストラップカリキュラム(4ステージ60GPU時間以上)は、ランダムな成功を体系的な戦略に増幅する。
要約すると、凍結したOCRをその入力でささやくことで、その重みに触れることなく不完全な分類器を改良する。
関連論文リスト
- Forward-Only Continual Learning [8.873948519614244]
破滅的な忘れ物は、継続的な学習における中心的な課題である。
本稿では,フォロ(FoRo)を提案する。
実験により、FoRoは平均的な忘れを著しく減らし、精度を向上することが示された。
論文 参考訳(メタデータ) (2025-09-01T15:10:38Z) - Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification [34.49704185920974]
MeanSparseは、敵の例に対する畳み込みと注意に基づくニューラルネットワークの堅牢性を改善する方法である。
実験の結果,MeanSparseは75.28%の新しいロバストネス記録を達成した。
論文 参考訳(メタデータ) (2024-06-09T22:14:55Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。