Fugu-MT 論文翻訳(概要): Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer

論文の概要: Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer

arxiv url: http://arxiv.org/abs/2311.13120v3
Date: Thu, 28 Mar 2024 08:30:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 21:22:07.763329
Title: Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer
Title（参考訳）: マルチモーダル・インコンテキスト・ラーニングによるエゴ進化型シーンテキスト認識
Authors: Zhen Zhao, Jingqun Tang, Chunhui Lin, Binghong Wu, Can Huang, Hao Liu, Xin Tan, Zhizhong Zhang, Yuan Xie,
Abstract要約: 野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。 E$2$STRは、コンテキストに富んだシーンテキストシーケンスでトレーニングされたSTRモデルで、提案したインコンテキストトレーニング戦略を介してシーケンスを生成する。 E$2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端のアプローチよりも優れています。
参考スコア（独自算出の注目度）: 32.657218195756414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text recognition (STR) in the wild frequently encounters challenges when coping with domain variations, font diversity, shape deformations, etc. A straightforward solution is performing model fine-tuning tailored to a specific scenario, but it is computationally intensive and requires multiple model copies for various scenarios. Recent studies indicate that large language models (LLMs) can learn from a few demonstration examples in a training-free manner, termed "In-Context Learning" (ICL). Nevertheless, applying LLMs as a text recognizer is unacceptably resource-consuming. Moreover, our pilot experiments on LLMs show that ICL fails in STR, mainly attributed to the insufficient incorporation of contextual information from diverse samples in the training stage. To this end, we introduce E$^2$STR, a STR model trained with context-rich scene text sequences, where the sequences are generated via our proposed in-context training strategy. E$^2$STR demonstrates that a regular-sized model is sufficient to achieve effective ICL capabilities in STR. Extensive experiments show that E$^2$STR exhibits remarkable training-free adaptation in various scenarios and outperforms even the fine-tuned state-of-the-art approaches on public benchmarks. The code is released at https://github.com/bytedance/E2STR .
Abstract（参考訳）: 野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。直感的な解決策は、特定のシナリオに合わせて微調整されたモデルを実行することだが、計算集約であり、様々なシナリオに対して複数のモデルコピーを必要とする。近年の研究では、大規模言語モデル(LLM)が、訓練のない方法でいくつかの実演例から学習できることが示されている。それでも、LLMをテキスト認識器として適用することは許容できないリソース消費である。さらに,本実験の結果から,ILCがSTRで失敗するのは,学習段階における多様なサンプルからの文脈情報の組み入れが不十分であったためと考えられる。そこで本稿では,コンテキストに富んだシーンテキストシーケンスをトレーニングしたSTRモデルであるE$^2$STRを紹介し,提案したコンテキスト内トレーニング戦略を用いてシーケンスを生成する。 E$^2$STR は、STR において有効な ICL 機能を達成するのに、正規サイズのモデルで十分であることを示す。大規模な実験により、E$^2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端アプローチよりも優れていた。コードはhttps://github.com/bytedance/E2STR で公開されている。

関連論文リスト

SICL-AT: Another way to adapt Auditory LLM to low-resource task [34.82834349882226]
聴覚大言語モデル(LLM)は,幅広い音声・音声理解タスクにおいて高い性能を示した。低リソースや不慣れなタスクに適用すると、しばしば苦労します。 In-Context Learning (ICL)は、トレーニングなしの推論時間ソリューションを提供する。
論文参考訳（メタデータ） (2026-01-26T19:15:16Z)
What do vision-language models see in the context? Investigating multimodal in-context learning [2.1119217917006234]
インコンテキスト学習(ICL)により、大規模言語モデルでは、パラメータ更新なしで実演例からタスクを学習することができる。視覚言語モデル(VLM)におけるICLの体系的研究について述べる。我々は、設計、アーキテクチャの選択、トレーニング戦略がマルチモーダルICLにどのように影響するかを分析する。
論文参考訳（メタデータ） (2025-10-28T11:55:24Z)
Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文参考訳（メタデータ） (2025-05-23T05:50:14Z)
SAIL: Sample-Centric In-Context Learning for Document Information Extraction [4.262937373782431]
ドキュメント情報抽出(DIE)は、ビジュアルリッチドキュメント(VRD)から構造化された情報を抽出することを目的としている。以前のフルトレーニングアプローチは強い性能を示してきたが、見つからないデータへの一般化に苦労する可能性がある。 DIEのためのサンプル中心型インコンテキスト学習(SAIL)を提案し,事前学習モデルに対する正確なガイダンスを提供する。
論文参考訳（メタデータ） (2024-12-22T16:58:59Z)
The representation landscape of few-shot learning and fine-tuning in large language models [43.76048699313088]
In-context Learning (ICL) と supervised Fine-tuning (SFT) は、現代の大規模言語モデル (LLM) の性能向上のための2つの一般的な戦略である。この2つの事例において,隠れた表現の確率的景観を解析した。 ICLとSFTは、どちらもネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成する。
論文参考訳（メタデータ） (2024-09-05T16:15:12Z)
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2024-02-24T13:00:54Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
Multi-Granularity Prediction with Learnable Fusion for Scene Text Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2023-07-25T04:12:50Z)
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-23T12:51:20Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。