論文の概要: Few-shot Writer Adaptation via Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2603.29450v1
- Date: Tue, 31 Mar 2026 08:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.372466
- Title: Few-shot Writer Adaptation via Multimodal In-Context Learning
- Title(参考訳): マルチモーダルインコンテキスト学習による書き手適応
- Authors: Tom Simon, Stephane Nicolas, Pierrick Tranouez, Clement Chatelain, Thierry Paquet,
- Abstract要約: 本稿では,マルチモーダル・イン・コンテクスト学習に触発されたコンテキスト駆動型HTRフレームワークを提案する。
提案手法は,パラメータの更新を推論時に必要とせずに,書き手非依存のHTRモデルを上回ることを示す。
- 参考スコア(独自算出の注目度): 2.4314488548686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While state-of-the-art Handwritten Text Recognition (HTR) models perform well on standard benchmarks, they frequently struggle with writers exhibiting highly specific styles that are underrepresented in the training data. To handle unseen and atypical writers, writer adaptation techniques personalize HTR models to individual handwriting styles. Leading writer adaptation methods require either offline fine-tuning or parameter updates at inference time, both involving gradient computation and backpropagation, which increase computational costs and demand careful hyperparameter tuning. In this work, we propose a novel context-driven HTR framework3 inspired by multimodal in-context learning, enabling inference-time writer adaptation using only a few examples from the target writer without any parameter updates. We further demonstrate the impact of context length, design a compact 8M-parameter CNN-Transformer that enables few-shot in-context adaptation, and show that combining context-driven and standard OCR training strategies leads to complementary improvements. Experiments on IAM and RIMES validate our approach with Character Error Rates of 3.92% and 2.34%, respectively, surpassing all writer-independent HTR models without requiring any parameter updates at inference time.
- Abstract(参考訳): 最新の手書き文字認識(HTR)モデルは標準的なベンチマークでよく機能するが、トレーニングデータで表現されていない非常に特殊なスタイルのライターとしばしば競合する。
不明瞭で非典型的な書き手を扱うために、ライター適応技術はHTRモデルを個別の手書きスタイルにパーソナライズする。
リードライター適応法は、勾配計算とバックプロパゲーションの両方を含む、オフラインの微調整またはパラメータ更新を必要とし、計算コストを増大させ、注意深いハイパーパラメータチューニングを要求する。
本研究では,マルチモーダルなインコンテキスト学習にインスパイアされた新しいコンテキスト駆動型HTRフレームワークを提案する。
さらに,コンテクスト長の影響を実証し,コンパクトな8MパラメータCNN変換器を設計し,文脈駆動と標準OCRトレーニングの併用が相補的改善をもたらすことを示す。
IAMとRIMESの実験では、キャラクタエラー率3.92%と2.34%のアプローチが、推論時にパラメータ更新を必要とせず、ライターに依存しないすべてのHTRモデルを上回っている。
関連論文リスト
- MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning [6.274266343486906]
従来の手書き文字認識法では、テスト時に書き手固有のパーソナライゼーションが欠如している。
本稿では、パーソナライズを即時チューニングとして定式化する効率的なフレームワークを提案する。
RIMES および IAM Handwriting Database ベンチマークに対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-26T20:26:16Z) - Personalized Text Generation with Contrastive Activation Steering [63.60368120937822]
そこで本研究では,ベクタとしてパーソナライズされた書体スタイルを分離し,表現する学習自由フレームワークを提案する。
本フレームワークは,PEFT法よりも1700倍のストレージ要求を削減しつつ,パーソナライズ生成において,8%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-03-07T08:07:15Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Writer adaptation for offline text recognition: An exploration of neural
network-based methods [5.285396202883411]
理想的な手書き文字認識(HTR)モデルは、新しい筆記スタイルに適応すべきである。
我々は, HTRモデルを新しいライターの例を少しだけ使って, ライターに適応させる方法を示す。
論文 参考訳(メタデータ) (2023-07-11T11:35:08Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Towards Writing Style Adaptation in Handwriting Recognition [0.0]
著者のアイデンティティを付加的な入力として捉えるために,著者に依存したパラメータを持つモデルについて検討する。
本稿では,学習した分割の埋め込みを前提とした適応型インスタンス正規化層であるWriter Style Block (WSB)を提案する。
著者に依存したシナリオでは,本手法はWSBのないベースラインよりも優れており,新たなライターへの埋め込みを推定することが可能であることを示す。
論文 参考訳(メタデータ) (2023-02-13T12:36:17Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Stylized Knowledge-Grounded Dialogue Generation via Disentangled
Template Rewriting [55.10977824136768]
我々は、Stylized Knowledge-Grounded Dialogue Generationという新しい問題を研究する。
SKDGモデルのトレーニング方法: コンテキスト、知識、スタイル化された応答が不要な場合。
本稿では, アンタングル型テンプレートとコンテンツテンプレートを組み合わせて応答を生成する, アンタングル型テンプレート書き換え(DTR)手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T08:17:21Z) - MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition [36.12001394921506]
我々は手書き文字認識の新しい手法を提案する。
新しいメタラーニングフレームワークを使い、新たなライターデータを利用する。
当社のフレームワークは、最先端のHTRモデルの上に簡単に実装できます。
論文 参考訳(メタデータ) (2021-04-05T12:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。