論文の概要: First-place Solution for Streetscape Shop Sign Recognition Competition
- arxiv url: http://arxiv.org/abs/2501.02811v1
- Date: Mon, 06 Jan 2025 07:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:06.974378
- Title: First-place Solution for Streetscape Shop Sign Recognition Competition
- Title(参考訳): 街路街路標識認識コンペティションのための第1位ソリューション
- Authors: Bin Wang, Li Jing,
- Abstract要約: ストリートビューの画像には、複雑なデザインと多様なテキストスタイルの看板が含まれており、テキスト認識プロセスが複雑であることが多い。
我々は,マルチモーダルな特徴融合,広範囲な自己教師付きトレーニング,トランスフォーマーに基づく大規模モデルを統合する,新しいマルチステージアプローチを開発した。
強化学習に依存するBoxDQNやテキスト修正手法といった革新的な技術が採用され、目覚ましい結果をもたらした。
- 参考スコア(独自算出の注目度): 7.04447917260059
- License:
- Abstract: Text recognition technology applied to street-view storefront signs is increasingly utilized across various practical domains, including map navigation, smart city planning analysis, and business value assessments in commercial districts. This technology holds significant research and commercial potential. Nevertheless, it faces numerous challenges. Street view images often contain signboards with complex designs and diverse text styles, complicating the text recognition process. A notable advancement in this field was introduced by our team in a recent competition. We developed a novel multistage approach that integrates multimodal feature fusion, extensive self-supervised training, and a Transformer-based large model. Furthermore, innovative techniques such as BoxDQN, which relies on reinforcement learning, and text rectification methods were employed, leading to impressive outcomes. Comprehensive experiments have validated the effectiveness of these methods, showcasing our potential to enhance text recognition capabilities in complex urban environments.
- Abstract(参考訳): ストリートビュー店頭標識に適用されるテキスト認識技術は、地図ナビゲーション、スマートシティ計画分析、商業地区におけるビジネス価値評価など、様々な実践領域で利用されつつある。
この技術は重要な研究と商業的可能性を秘めている。
しかし、多くの課題に直面している。
ストリートビューの画像には、複雑なデザインと多様なテキストスタイルの看板が含まれており、テキスト認識プロセスが複雑であることが多い。
この分野での注目すべき進歩は、最近のコンペで私たちのチームによって紹介されました。
我々は,マルチモーダルな特徴融合,広範囲な自己教師付きトレーニング,トランスフォーマーに基づく大規模モデルを統合する,新しいマルチステージアプローチを開発した。
さらに、強化学習に依存するBoxDQNやテキスト修正手法といった革新的な手法が採用され、印象的な結果が得られた。
これらの手法の有効性を総合的に検証し,複雑な都市環境におけるテキスト認識能力向上の可能性を示した。
関連論文リスト
- Explainability in AI Based Applications: A Framework for Comparing Different Techniques [2.5874041837241304]
ビジネスアプリケーションでは、理解可能性と精度のバランスをとる適切な説明可能性方法を選択することが課題である。
本稿では,異なる説明可能性手法の一致を評価するための新しい手法を提案する。
多様な説明可能性手法の合意を理解するための実践的な枠組みを提供することにより、ビジネスアプリケーションにおける解釈可能なAIシステムのより広範な統合を促進することを目的としている。
論文 参考訳(メタデータ) (2024-10-28T09:45:34Z) - Finding frames with BERT: A transformer-based approach to generic news frame detection [0.0]
英文オンラインコンテンツにおけるニュースフレームの汎用的検出のためのトランスフォーマーに基づくアプローチを提案する。
本稿では,トレーニングデータセットとテストデータセットの構成,モデルアーキテクチャ,アプローチの妥当性について論じる。
論文 参考訳(メタデータ) (2024-08-30T22:05:01Z) - 3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities [57.444435654131006]
3D Gaussian Splatting (3DGS) は、3D表現の主流となる可能性を持つ顕著な手法として登場した。
本調査は,複数視点から既存の3DGS関連作品を分析することを目的としている。
論文 参考訳(メタデータ) (2024-07-24T16:53:17Z) - MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。