Fugu-MT 論文翻訳(概要): Integrating Canonical Neural Units and Multi-Scale Training for Handwritten Text Recognition

論文の概要: Integrating Canonical Neural Units and Multi-Scale Training for Handwritten Text Recognition

arxiv url: http://arxiv.org/abs/2410.18374v1
Date: Thu, 24 Oct 2024 02:33:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.729701
Title: Integrating Canonical Neural Units and Multi-Scale Training for Handwritten Text Recognition
Title（参考訳）: 手書き文字認識のための正準ニューラルネットワークの統合とマルチスケール学習
Authors: Zi-Rui Wang,
Abstract要約: 本稿では,新しい3次元アテンションモジュールとグローバルなコンテキスト情報を用いて,新しい認識ネットワークを提案する。注意機構、完全接続層、再帰ユニット、畳み込み層を含む主要な正準神経ユニットを効率的にネットワークに編成する。
参考スコア（独自算出の注目度）: 19.05500901000957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The segmentation-free research efforts for addressing handwritten text recognition can be divided into three categories: connectionist temporal classification (CTC), hidden Markov model and encoder-decoder methods. In this paper, inspired by the above three modeling methods, we propose a new recognition network by using a novel three-dimensional (3D) attention module and global-local context information. Based on the feature maps of the last convolutional layer, a series of 3D blocks with different resolutions are split. Then, these 3D blocks are fed into the 3D attention module to generate sequential visual features. Finally, by integrating the visual features and the corresponding global-local context features, a well-designed representation can be obtained. Main canonical neural units including attention mechanisms, fully-connected layer, recurrent unit and convolutional layer are efficiently organized into a network and can be jointly trained by the CTC loss and the cross-entropy loss. Experiments on the latest Chinese handwritten text datasets (the SCUT-HCCDoc and the SCUT-EPT) and one English handwritten text dataset (the IAM) show that the proposed method can make a new milestone.
Abstract（参考訳）: 手書き文字認識のためのセグメンテーションフリーの研究は、コネクショニスト時間分類(CTC)、隠れマルコフモデル、エンコーダデコーダメソッドの3つのカテゴリに分けられる。本稿では,上記の3つのモデリング手法にヒントを得て,新しい3次元アテンションモジュールとグローバルなコンテキスト情報を用いて,新しい認識ネットワークを提案する。最後の畳み込み層の特徴写像に基づいて、解像度の異なる一連の3Dブロックを分割する。そして、これらの3Dブロックを3Dアテンションモジュールに入力し、シーケンシャルな視覚的特徴を生成する。最後に、視覚的特徴とそれに対応するグローバルなコンテキスト特徴を統合することで、よく設計された表現を得ることができる。注意機構、完全連結層、再帰ユニット、畳み込み層を含む主要な正準神経ユニットは、効率的にネットワークに組織化され、CTC損失とクロスエントロピー損失によって共同で訓練することができる。最新の中国手書きテキストデータセット(SCUT-HCCDocとSCUT-EPT)と英語手書きテキストデータセット(IAM)の実験により,提案手法が新たなマイルストーンを達成できることが示されている。

関連論文リスト

Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文参考訳（メタデータ） (2025-10-09T15:01:26Z)
ASIA: Adaptive 3D Segmentation using Few Image Annotations [21.733451438390755]
ASIA(Adaptive 3D using few Image s)は、3Dで非意味的かつ非テキスト記述可能な「部分」のセグメンテーションを可能にする新しいフレームワークである。本手法は,画像空間から3次元へのセグメンテーションの転送に,SD(Stable Diffusion)などのテキスト・画像拡散モデルのリッチな先行性を利用する。 ASIAは意味的および非意味的な3Dセグメンテーションタスクに対して実用的で一般化可能なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-29T05:04:11Z)
Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文参考訳（メタデータ） (2025-09-22T07:23:07Z)
PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文参考訳（メタデータ） (2024-07-13T09:39:11Z)
Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-04-02T17:59:10Z)
Representing 3D sparse map points and lines for camera relocalization [1.2974519529978974]
軽量ニューラルネットワークが3Dポイントとラインの両方の特徴を表現するためにどのように学習できるかを示す。テストにおいて,本手法は,最先端の学習手法に対する最も顕著な向上を図っている。
論文参考訳（メタデータ） (2024-02-28T03:07:05Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-12-07T12:10:05Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。 2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文参考訳（メタデータ） (2023-06-28T22:36:44Z)
Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文参考訳（メタデータ） (2023-03-16T11:53:29Z)
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文参考訳（メタデータ） (2022-12-10T01:34:47Z)
Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文参考訳（メタデータ） (2021-12-26T07:31:03Z)
TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。 TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-11-16T09:10:39Z)
Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。 CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文参考訳（メタデータ） (2021-08-23T02:03:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。