論文の概要: Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation
- arxiv url: http://arxiv.org/abs/2508.15427v1
- Date: Thu, 21 Aug 2025 10:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.279494
- Title: Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation
- Title(参考訳): Lang2Lift: 自律的屋外フォークリフト操作における言語誘導型パレット検出とポース推定の統合フレームワーク
- Authors: Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi,
- Abstract要約: Lang2Liftは、自然言語誘導パレット検出と6Dポーズ推定に基礎モデルを活用するフレームワークである。
我々は、ADAPT自律フォークリフトプラットフォーム上でLang2Liftを検証し、現実世界のテストデータセット上で0.76mIoUのパレットセグメンテーション精度を達成した。
- 参考スコア(独自算出の注目度): 5.116439556463653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The logistics and construction industries face persistent challenges in automating pallet handling, especially in outdoor environments with variable payloads, inconsistencies in pallet quality and dimensions, and unstructured surroundings. In this paper, we tackle automation of a critical step in pallet transport: the pallet pick-up operation. Our work is motivated by labor shortages, safety concerns, and inefficiencies in manually locating and retrieving pallets under such conditions. We present Lang2Lift, a framework that leverages foundation models for natural language-guided pallet detection and 6D pose estimation, enabling operators to specify targets through intuitive commands such as "pick up the steel beam pallet near the crane." The perception pipeline integrates Florence-2 and SAM-2 for language-grounded segmentation with FoundationPose for robust pose estimation in cluttered, multi-pallet outdoor scenes under variable lighting. The resulting poses feed into a motion planning module for fully autonomous forklift operation. We validate Lang2Lift on the ADAPT autonomous forklift platform, achieving 0.76 mIoU pallet segmentation accuracy on a real-world test dataset. Timing and error analysis demonstrate the system's robustness and confirm its feasibility for deployment in operational logistics and construction environments. Video demonstrations are available at https://eric-nguyen1402.github.io/lang2lift.github.io/
- Abstract(参考訳): 物流と建設産業はパレット処理の自動化において、特に変動ペイロードを持つ屋外環境、パレットの品質と寸法の不整合、非構造環境において、永続的な課題に直面している。
本稿では,パレット輸送における重要なステップであるパレット回収作業の自動化に取り組む。
我々の仕事は、労働不足、安全上の懸念、そしてそのような条件下で手動でパレットの配置と回収の非効率によって動機付けられています。
本稿では,自然言語誘導パレット検出と6次元ポーズ推定のための基礎モデルを活用するフレームワークであるLang2Liftについて述べる。
知覚パイプラインは、フローレンス-2とSAM-2を言語接地セグメンテーションと統合し、可変照明下での散らばったマルチパレット屋外シーンのロバストポーズ推定を行う。
結果として生じるポーズは、完全に自律的なフォークリフト操作のためのモーションプランニングモジュールに供給される。
我々は、ADAPT自律フォークリフトプラットフォーム上でLang2Liftを検証し、現実世界のテストデータセット上で0.76mIoUのパレットセグメンテーション精度を達成した。
タイミングとエラー分析はシステムの堅牢性を示し、運用物流および建設環境への展開の可能性を確認する。
ビデオデモはhttps://eric-nguyen1402.github.io/lang2lift.github.io/で公開されている。
関連論文リスト
- LiDAR Based Semantic Perception for Forklifts in Outdoor Environments [0.31457219084519]
複雑な屋外環境で動作する自律フォークリフトに適した,新しいLiDARベースのセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのアプローチの中心は、前方と下向きのLiDARセンサーを組み合わせたデュアルLiDARシステムの統合です。
2つのセンサーから取得した高分解能な3D点雲を用いて、本手法では、ポイント雲を安全クリティカルなインスタンスクラスに分割する軽量で堅牢なアプローチを採用する。
論文 参考訳(メタデータ) (2025-05-28T11:45:14Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Generalize by Touching: Tactile Ensemble Skill Transfer for Robotic Furniture Assembly [24.161856591498825]
TEST(Tactile Ensemble Skill Transfer)は、制御ループに触覚フィードバックを組み込んだオフライン強化学習(RL)アプローチのパイオニアである。
TESTの中核となる設計は、高度計画のためのスキル移行モデルと、適応的なスキル内目標達成ポリシーのセットを学ぶことである。
その結果, TESTは90%以上の成功率を達成でき, 一般化政策の4倍以上の効率であることがわかった。
論文 参考訳(メタデータ) (2024-04-26T20:27:10Z) - ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。
包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。
本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T07:48:32Z) - A vision-based autonomous UAV inspection framework for unknown tunnel
construction sites with dynamic obstacles [7.340017786387768]
本稿では,動的トンネル環境のための視覚に基づくUAV検査フレームワークを提案する。
我々のフレームワークには、動的障害を同時に追跡し、静的障害を表現できる新しい動的マップモジュールが含まれています。
実際のトンネルでの飛行実験は, トンネル掘削面を自律的に検査できることを示すものである。
論文 参考訳(メタデータ) (2023-01-20T04:42:30Z) - Target-Driven Structured Transformer Planner for Vision-Language
Navigation [55.81329263674141]
本稿では,TD-STP(Target-Driven Structured Transformer Planner)を提案する。
具体的には,長期目標の明示的な推定を行うため,Imaginary Scene Tokenization機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
論文 参考訳(メタデータ) (2022-07-19T06:46:21Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。