論文の概要: Transfer Learning Approach for Railway Technical Map (RTM) Component Identification
- arxiv url: http://arxiv.org/abs/2405.13229v1
- Date: Tue, 21 May 2024 22:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:53:42.517220
- Title: Transfer Learning Approach for Railway Technical Map (RTM) Component Identification
- Title(参考訳): 鉄道技術地図(RTM)コンポーネント同定のための伝達学習手法
- Authors: Obadage Rochana Rumalshan, Pramuka Weerasinghe, Mohamed Shaheer, Prabhath Gunathilake, Erunika Dayaratna,
- Abstract要約: 本研究は,入力画像から関連するマップコンポーネントデータをデジタル化し,画像毎にフォーマットされたテキストファイルを作成する汎用システムを提案する。
YOLOv3、SSD、Faster-RCNNのオブジェクト検出モデルのうち、Faster-RCNNは平均精度(mAP)が最も高く、F1スコアは0.68と0.76である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The extreme popularity over the years for railway transportation urges the necessity to maintain efficient railway management systems around the globe. Even though, at present, there exist a large collection of Computer Aided Designed Railway Technical Maps (RTMs) but available only in the portable document format (PDF). Using Deep Learning and Optical Character Recognition techniques, this research work proposes a generic system to digitize the relevant map component data from a given input image and create a formatted text file per image. Out of YOLOv3, SSD and Faster-RCNN object detection models used, Faster-RCNN yields the highest mean Average Precision (mAP) and the highest F1 score values 0.68 and 0.76 respectively. Further it is proven from the results obtained that, one can improve the results with OCR when the text containing image is being sent through a sophisticated pre-processing pipeline to remove distortions.
- Abstract(参考訳): 鉄道輸送における長年の極端な人気は、世界中の効率的な鉄道管理システムを維持する必要性を喚起している。
しかしながら、現在、コンピュータ支援設計鉄道技術地図(RTM)の大規模なコレクションは存在するが、ポータブル文書形式(PDF)でのみ利用可能である。
本研究では,ディープラーニングと光学文字認識技術を用いて,入力画像から関連する地図成分データをデジタル化し,画像毎にフォーマットされたテキストファイルを作成する汎用システムを提案する。
YOLOv3、SSD、Faster-RCNNのオブジェクト検出モデルのうち、Faster-RCNNは平均精度(mAP)が最も高く、F1スコアは0.68と0.76である。
さらに、画像を含むテキストが洗練された前処理パイプラインを介して送信され歪みを除去する場合、OCRによる結果を改善することができることが得られた結果から証明された。
関連論文リスト
- Railway LiDAR semantic segmentation based on intelligent semi-automated data annotation [0.48212500317840945]
本稿では,スキャンと画像の併用による2DPassネットワークアーキテクチャに基づくポイントワイズ3次元セマンティックセマンティックセマンティックセマンティクスのアプローチを提案する。
また,ドイツの鉄道線路に記録された必要なデータセットを効率よく正確にラベル付けするために,半自動のインテリジェントデータアノテーション手法を提案する。
我々は、鉄道環境からのカメラやLiDARデータを含むレールデータを注釈し、画像セグメンテーションネットワークを用いて生のLiDAR点雲を転送し、アクティブラーニングを効率的に活用する最先端の3DLiDARセグメンテーションネットワークを訓練する。
論文 参考訳(メタデータ) (2024-10-17T09:36:19Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer [5.215058915075776]
赤外線(IR)画像に対する最近の物体検出モデルは、ディープニューラルネットワーク(DNN)に基づいており、大量のラベル付きトレーニング画像を必要とする。
この問題に対処するために,大規模で多様なカラー画像データセットを活用するためのクロスモーダル・スタイル・トランスファー(CMST)について検討する。
論文 参考訳(メタデータ) (2022-12-24T22:38:16Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。