論文の概要: Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation
- arxiv url: http://arxiv.org/abs/2508.15427v1
- Date: Thu, 21 Aug 2025 10:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.279494
- Title: Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation
- Title(参考訳): Lang2Lift: 自律的屋外フォークリフト操作における言語誘導型パレット検出とポース推定の統合フレームワーク
- Authors: Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi,
- Abstract要約: Lang2Liftは、自然言語誘導パレット検出と6Dポーズ推定に基礎モデルを活用するフレームワークである。
我々は、ADAPT自律フォークリフトプラットフォーム上でLang2Liftを検証し、現実世界のテストデータセット上で0.76mIoUのパレットセグメンテーション精度を達成した。
- 参考スコア(独自算出の注目度): 5.116439556463653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The logistics and construction industries face persistent challenges in automating pallet handling, especially in outdoor environments with variable payloads, inconsistencies in pallet quality and dimensions, and unstructured surroundings. In this paper, we tackle automation of a critical step in pallet transport: the pallet pick-up operation. Our work is motivated by labor shortages, safety concerns, and inefficiencies in manually locating and retrieving pallets under such conditions. We present Lang2Lift, a framework that leverages foundation models for natural language-guided pallet detection and 6D pose estimation, enabling operators to specify targets through intuitive commands such as "pick up the steel beam pallet near the crane." The perception pipeline integrates Florence-2 and SAM-2 for language-grounded segmentation with FoundationPose for robust pose estimation in cluttered, multi-pallet outdoor scenes under variable lighting. The resulting poses feed into a motion planning module for fully autonomous forklift operation. We validate Lang2Lift on the ADAPT autonomous forklift platform, achieving 0.76 mIoU pallet segmentation accuracy on a real-world test dataset. Timing and error analysis demonstrate the system's robustness and confirm its feasibility for deployment in operational logistics and construction environments. Video demonstrations are available at https://eric-nguyen1402.github.io/lang2lift.github.io/
- Abstract(参考訳): 物流と建設産業はパレット処理の自動化において、特に変動ペイロードを持つ屋外環境、パレットの品質と寸法の不整合、非構造環境において、永続的な課題に直面している。
本稿では,パレット輸送における重要なステップであるパレット回収作業の自動化に取り組む。
我々の仕事は、労働不足、安全上の懸念、そしてそのような条件下で手動でパレットの配置と回収の非効率によって動機付けられています。
本稿では,自然言語誘導パレット検出と6次元ポーズ推定のための基礎モデルを活用するフレームワークであるLang2Liftについて述べる。
知覚パイプラインは、フローレンス-2とSAM-2を言語接地セグメンテーションと統合し、可変照明下での散らばったマルチパレット屋外シーンのロバストポーズ推定を行う。
結果として生じるポーズは、完全に自律的なフォークリフト操作のためのモーションプランニングモジュールに供給される。
我々は、ADAPT自律フォークリフトプラットフォーム上でLang2Liftを検証し、現実世界のテストデータセット上で0.76mIoUのパレットセグメンテーション精度を達成した。
タイミングとエラー分析はシステムの堅牢性を示し、運用物流および建設環境への展開の可能性を確認する。
ビデオデモはhttps://eric-nguyen1402.github.io/lang2lift.github.io/で公開されている。
関連論文リスト
- PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement [89.35154754765502]
PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-02-16T17:55:25Z) - Learning-Based Vision Systems for Semi-Autonomous Forklift Operation in Industrial Warehouse Environments [0.0]
本研究は,単一標準カメラを用いたパレットとパレットのホール検出とマッピングのための視覚ベースのフレームワークを提案する。
革新的なパレットホールマッピングモジュールは、検出を実行可能な空間表現に変換する。
実際の倉庫イメージを付加したカスタムデータセットの実験では、YOLOv8が高いパレットとパレットのホール検出精度を達成することが示されている。
論文 参考訳(メタデータ) (2025-11-09T09:13:22Z) - Exploring Category-level Articulated Object Pose Tracking on SE(3) Manifolds [46.859932208933735]
人工物は日常生活やロボット操作のタスクで広く使われている。
調音された物体のポーズ追跡は 固有のキネマティックな制約のために 未発見の問題のままです
本研究は,textbfPPF-Tracker と呼ばれる新しいポイントペア型ポーズトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T12:56:21Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation [1.8266092127796327]
AnywhereVLAは、モバイル操作のためのモジュラーフレームワークである。
テキストプロンプトはエントリポイントとして機能し、構造化されたタスクグラフに解析される。
相互作用のためには、コンパクトなSmolVLA操作ヘッドをプラットフォームピックとプレーストラジェクトリに微調整する。
論文 参考訳(メタデータ) (2025-09-25T11:04:44Z) - Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence [4.60587070358843]
本稿では,電力伝送システムにおけるリアルタイム異物侵入(FOI)検出と追跡のための新しい枠組みを提案する。
本フレームワークは,(1)高速で堅牢なオブジェクトローカライゼーションのためのYOLOv7セグメンテーションモデル,(2)三重項損失を訓練したConvNeXtベースの特徴抽出器,(3)特徴支援IoUトラッカーを統合した。
スケーラブルなフィールドデプロイメントを実現するため、パイプラインは、混合精度推論を使用して、低コストのエッジハードウェアへのデプロイメントに最適化されている。
論文 参考訳(メタデータ) (2025-09-16T17:17:03Z) - LiDAR Based Semantic Perception for Forklifts in Outdoor Environments [0.31457219084519]
複雑な屋外環境で動作する自律フォークリフトに適した,新しいLiDARベースのセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのアプローチの中心は、前方と下向きのLiDARセンサーを組み合わせたデュアルLiDARシステムの統合です。
2つのセンサーから取得した高分解能な3D点雲を用いて、本手法では、ポイント雲を安全クリティカルなインスタンスクラスに分割する軽量で堅牢なアプローチを採用する。
論文 参考訳(メタデータ) (2025-05-28T11:45:14Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Generalize by Touching: Tactile Ensemble Skill Transfer for Robotic Furniture Assembly [24.161856591498825]
TEST(Tactile Ensemble Skill Transfer)は、制御ループに触覚フィードバックを組み込んだオフライン強化学習(RL)アプローチのパイオニアである。
TESTの中核となる設計は、高度計画のためのスキル移行モデルと、適応的なスキル内目標達成ポリシーのセットを学ぶことである。
その結果, TESTは90%以上の成功率を達成でき, 一般化政策の4倍以上の効率であることがわかった。
論文 参考訳(メタデータ) (2024-04-26T20:27:10Z) - ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。
包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。
本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T07:48:32Z) - A vision-based autonomous UAV inspection framework for unknown tunnel
construction sites with dynamic obstacles [7.340017786387768]
本稿では,動的トンネル環境のための視覚に基づくUAV検査フレームワークを提案する。
我々のフレームワークには、動的障害を同時に追跡し、静的障害を表現できる新しい動的マップモジュールが含まれています。
実際のトンネルでの飛行実験は, トンネル掘削面を自律的に検査できることを示すものである。
論文 参考訳(メタデータ) (2023-01-20T04:42:30Z) - Target-Driven Structured Transformer Planner for Vision-Language
Navigation [55.81329263674141]
本稿では,TD-STP(Target-Driven Structured Transformer Planner)を提案する。
具体的には,長期目標の明示的な推定を行うため,Imaginary Scene Tokenization機構を考案する。
さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。
論文 参考訳(メタデータ) (2022-07-19T06:46:21Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。