論文の概要: Learning-Based Vision Systems for Semi-Autonomous Forklift Operation in Industrial Warehouse Environments
- arxiv url: http://arxiv.org/abs/2511.06295v1
- Date: Sun, 09 Nov 2025 09:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.870101
- Title: Learning-Based Vision Systems for Semi-Autonomous Forklift Operation in Industrial Warehouse Environments
- Title(参考訳): 産業用倉庫環境における半自動フォークリフト運用のための学習型視覚システム
- Authors: Vamshika Sutar, Mahek Maheshwari, Archak Mittal,
- Abstract要約: 本研究は,単一標準カメラを用いたパレットとパレットのホール検出とマッピングのための視覚ベースのフレームワークを提案する。
革新的なパレットホールマッピングモジュールは、検出を実行可能な空間表現に変換する。
実際の倉庫イメージを付加したカスタムデータセットの実験では、YOLOv8が高いパレットとパレットのホール検出精度を達成することが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automation of material handling in warehouses increasingly relies on robust, low cost perception systems for forklifts and Automated Guided Vehicles (AGVs). This work presents a vision based framework for pallet and pallet hole detection and mapping using a single standard camera. We utilized YOLOv8 and YOLOv11 architectures, enhanced through Optuna driven hyperparameter optimization and spatial post processing. An innovative pallet hole mapping module converts the detections into actionable spatial representations, enabling accurate pallet and pallet hole association for forklift operation. Experiments on a custom dataset augmented with real warehouse imagery show that YOLOv8 achieves high pallet and pallet hole detection accuracy, while YOLOv11, particularly under optimized configurations, offers superior precision and stable convergence. The results demonstrate the feasibility of a cost effective, retrofittable visual perception module for forklifts. This study proposes a scalable approach to advancing warehouse automation, promoting safer, economical, and intelligent logistics operations.
- Abstract(参考訳): 倉庫における材料処理の自動化は、フォークリフトやAGV(Automated Guided Vehicles)の堅牢で低コストな認識システムにますます依存している。
本研究は,単一標準カメラを用いたパレットとパレットのホール検出とマッピングのための視覚ベースのフレームワークを提案する。
YOLOv8 と YOLOv11 アーキテクチャを用い,オプトゥーナ駆動型ハイパーパラメータ最適化と空間ポスト処理により拡張した。
革新的なパレットホールマッピングモジュールは、これらの検出を実行可能な空間表現に変換し、フォークリフト操作のための正確なパレットとパレットホールの関連を可能にする。
実際の倉庫イメージを付加したカスタムデータセットの実験では、YOLOv8は高いパレットとパレットの穴検出精度を達成する一方、YOLOv11は特に最適化された構成下では、優れた精度と安定した収束を提供する。
その結果, フォークリフトのための費用対効果, 再現性のある視覚認識モジュールの実現可能性を示した。
本研究は、倉庫の自動化を推進し、より安全で経済的でインテリジェントな物流業務を促進するためのスケーラブルなアプローチを提案する。
関連論文リスト
- Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation [5.116439556463653]
Lang2Liftは、自然言語誘導パレット検出と6Dポーズ推定に基礎モデルを活用するフレームワークである。
我々は、ADAPT自律フォークリフトプラットフォーム上でLang2Liftを検証し、現実世界のテストデータセット上で0.76mIoUのパレットセグメンテーション精度を達成した。
論文 参考訳(メタデータ) (2025-08-21T10:28:39Z) - AGC-Drive: A Large-Scale Dataset for Real-World Aerial-Ground Collaboration in Driving Scenarios [68.84774511206797]
AGC-DriveはAerial-Ground Cooperativeの3D知覚のための最初の大規模実世界のデータセットである。
AGC-Driveには350のシーンがあり、それぞれ約100のフレームと13のオブジェクトカテゴリをカバーする完全な注釈付き3Dバウンディングボックスがある。
車両間協調認識と車両間協調認識の2つの3次元タスクのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-06-19T14:48:43Z) - Spatiotemporal Analysis of Forest Machine Operations Using 3D Video Classification [0.07499722271664144]
本稿では,ダッシュカム映像からの森林活動の深層学習フレームワークを提案する。
PyTorchVideoで実装された3D ResNet-50アーキテクチャを採用している。
手動でアノテートされたフィールド記録データセットでトレーニングされたこのモデルは、強いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T09:07:57Z) - Pallet Detection And Localisation From Synthetic Data [2.7811470090754544]
本稿では, 純粋合成データと, 側面から得られる幾何学的特徴を用いて, パレットの検出と位置推定を強化する新しい手法を提案する。
提案手法は,現実世界のデータセット上で単一パレットに対して0.995 mAP50のパレット検出性能を示す。
論文 参考訳(メタデータ) (2025-03-29T04:06:02Z) - Vehicle Detection and Classification for Toll collection using YOLOv11 and Ensemble OCR [0.0]
本研究は, YOLOv11コンピュータビジョンアーキテクチャとアンサンブルOCR技術を組み合わせて, プラザごとの1台のカメラを用いて, 自動料金徴収に革命をもたらす革新的な手法を提案する。
我々のシステムは、幅広い条件で平均精度0.895を達成し、ライセンスプレート認識では98.5%、軸検出では94.2%、OCR信頼スコアでは99.7%を達成している。
論文 参考訳(メタデータ) (2024-12-13T23:04:02Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [95.24751989263117]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである。
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - MSight: An Edge-Cloud Infrastructure-based Perception System for
Connected Automated Vehicles [58.461077944514564]
本稿では,自動走行車に特化して設計された最先端道路側認識システムであるMSightについて述べる。
MSightは、リアルタイムの車両検出、ローカライゼーション、トラッキング、短期的な軌道予測を提供する。
評価は、待ち時間を最小限にしてレーンレベルの精度を維持するシステムの能力を強調している。
論文 参考訳(メタデータ) (2023-10-08T21:32:30Z) - Autonomous Navigation of Micro Air Vehicles in Warehouses Using
Vision-based Line Following [1.0128808054306186]
本稿では,室内用マイクロエアビー (MAV) ナビゲーションのための視覚ベースのソリューションを提案する。
本研究は,検出,ローカライゼーション,経路計画などのタスクにおいて,単一カメラを主センサとして活用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-02T07:43:51Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。