論文の概要: Automatic Intermodal Loading Unit Identification using Computer Vision: A Scoping Review
- arxiv url: http://arxiv.org/abs/2509.17707v1
- Date: Mon, 22 Sep 2025 12:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.385334
- Title: Automatic Intermodal Loading Unit Identification using Computer Vision: A Scoping Review
- Title(参考訳): コンピュータビジョンを用いたモーダル間負荷単位の自動同定:スコーピングレビュー
- Authors: Emre Gülsoylu, Alhassan Abdelhalim, Derya Kara Boztas, Ole Grasse, Carlos Jahn, Simone Frintrop, Janick Edinger,
- Abstract要約: 本稿では,コンピュータビジョン(CV)に基づくソリューションを提案する63の研究をレビューする。
CVは他の種類の識別技術に費用対効果のある代替手段を提供する。
その開発は、公開可能なベンチマークデータセットの欠如によって妨げられている。
- 参考スコア(独自算出の注目度): 2.6482844421185074
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The standardisation of Intermodal Loading Units (ILUs), such as containers, semi-trailers and swap bodies, has revolutionised global trade yet their efficient and robust identification remains a critical bottleneck in high-throughput ports and terminals. This paper reviews 63 empirical studies that propose computer vision (CV) based solutions. It covers the last 35 years (1990-2025), tracing the field's evolution from early digital image processing (DIP) and traditional machine learning (ML) to the current dominance of deep learning (DL) techniques. While CV offers cost-effective alternatives for other types of identification techniques, its development is hindered by the lack of publicly available benchmarking datasets. This results in high variance for the reported results such as end-to-end accuracy ranging from 5 % to 96 %. Beyond dataset limitations, this review highlights the emerging challenges especially introduced by the shift from character-based text recognition to scene-text spotting and the integration of mobile cameras (e.g. drones, sensor equipped ground vehicles) for dynamic terminal monitoring. To advance the field, the paper calls for standardised terminology, open-access datasets, shared source code, while outlining future research directions such as contextless text recognition optimised for ISO6346 codes.
- Abstract(参考訳): コンテナ、セミトレーラー、スワップボディなどのインターモーダルローディングユニット(ILU)の標準化は、世界的な貿易に革命をもたらしたが、その効率的で堅牢な識別は、高スループットポートやターミナルにおいて重要なボトルネックとなっている。
本稿では,コンピュータビジョン(CV)に基づくソリューションを提案する63の実証研究についてレビューする。
過去35年間(1990-2025年)をカバーし、初期のデジタル画像処理(DIP)と従来の機械学習(ML)から現在のディープラーニング(DL)技術まで、この分野の進化をトレースしている。
CVは、他のタイプの識別技術に対するコスト効率の良い代替手段を提供するが、その開発は、公開されているベンチマークデータセットの欠如によって妨げられている。
その結果, エンド・ツー・エンドの精度は5%から96%の範囲で高いばらつきを示した。
データセットの制限以外にも、このレビューでは、文字ベースのテキスト認識からシーンテキストスポッティングへのシフトや、動的端末監視のためのモバイルカメラ(ドローン、センサー付き地上車両など)の統合による、特に新たな課題が強調されている。
本論文は,ISO6346符号に最適化されたコンテキストレステキスト認識などの今後の研究方向性を概説しながら,標準化された用語,オープンアクセスデータセット,共有ソースコードを求めている。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Transformers Meet Hyperspectral Imaging: A Comprehensive Study of Models, Challenges and Open Problems [0.0]
2025年までの300以上の論文をレビューし、TransformerベースのHSI分類を専門とする初のエンドツーエンド調査を行った。
この研究は、典型的なパイプライン前処理、パッチまたはピクセルトークン化、位置符号化、空間スペクトル特徴抽出、マルチヘッド自己注意変種、接続のスキップ、損失設計の各段階を分類する。
我々は、貴重な公開データセットの優先順位付け、軽量なオンエッジモデル、照明とセンサーシフト、本質的に解釈可能なアテンションメカニズムについて概説する。
論文 参考訳(メタデータ) (2025-06-10T09:04:30Z) - LiDAR-based Object Detection with Real-time Voice Specifications [0.0]
本稿では,リアルタイム音声仕様を用いたLiDARオブジェクト検出システムを提案する。
3000サンプルのサブセットで87.0%の精度を達成し、200サンプルのベースラインである67.5%を超えている。
Tkinterのプロトタイプは、Edge TTS(en-IN-PrabhatNeural)と3Dビジュアライゼーションとリアルタイムフィードバックを使って、インドの男性による自然な音声出力を提供する。
論文 参考訳(メタデータ) (2025-04-03T16:50:38Z) - AI-Driven Intrusion Detection Systems (IDS) on the ROAD Dataset: A Comparative Analysis for Automotive Controller Area Network (CAN) [4.081467217340597]
コントロールエリアネットワーク(CAN)バスは、電子制御ユニット(ECU)間の車内通信を管理する中央システムである。
CANプロトコルは、固有の脆弱性、暗号化と認証の欠如、攻撃面の拡大、堅牢なセキュリティ対策を必要とするセキュリティ上の問題を引き起こす。
本稿では、ステルスと洗練された注入を含む最新のROADデータセットについて考察する。
論文 参考訳(メタデータ) (2024-08-30T12:26:23Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。