論文の概要: Robotic Strawberry Harvesting with Robust Vision and Deep Reinforcement Learning based Sim-to-Real Control
- arxiv url: http://arxiv.org/abs/2605.23863v1
- Date: Fri, 22 May 2026 17:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.443302
- Title: Robotic Strawberry Harvesting with Robust Vision and Deep Reinforcement Learning based Sim-to-Real Control
- Title(参考訳): Sim-to-Real 制御に基づくロバストビジョンと深部強化学習によるロボット系統の収穫
- Authors: Al Bashir, Shao-Yang Chang, Partho Ghose, Prem Raj, Chen-Kang Huang, Azlan Zahid,
- Abstract要約: 本研究では,ロバストビジョンモジュール,シミュレーション学習型深部強化学習制御,ROSに基づく実ロボット実行を組み合わせたクローズドループロボットイチゴ収穫システムを提案する。
HRAttnEdge-YOLO26-segは,高分解能なP2ブランチ,セグメンテーションパスアテンション,エッジ教師ありプロトタイプ学習を組み込んだ改良型YOLO26セグアーキテクチャである。
制御のために、ターゲット条件付きPPOポリシーをアイザック研究所で訓練し、UR10eのスムーズな共同配置コマンドを生成する。
- 参考スコア(独自算出の注目度): 0.8466401378239364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a closed-loop robotic strawberry harvesting system that combines a robust vision module, simulation-trained deep reinforcement learning (DRL) control, and ROS-based realrobot execution. For perception, we propose HRAttnEdge-YOLO26-seg, a modified YOLO26-seg architecture that incorporates a high-resolution P2 branch, segmentation-path attention, and edgesupervised prototype learning to improve instance segmentation in cluttered scenes. For control, we train a target-conditioned Proximal Policy Optimization (PPO) policy in Isaac Lab to produce smooth joint-position commands for a UR10e manipulator and deploy it on a UR10e robot for targetfruit reaching and harvesting. This simulation-based approach reduces hardware dependency, lowers development cost, and allows scalable policy training without exhaustive physical trials before real deployment. The proposed vision model demonstrated the highest overall performance among the evaluated methods. On both self-collected and public datasets, the model showed a 10 to 14% improvement in segmentation performance. In controlled in-house tests, the PPO controller produced stable and dynamically smoother motion than a inverse kinematics (IK)-based MoveIt baseline. In greenhouse trials, the proposed integrated system harvested 281 strawberries, achieving 96.6% reaching success, 91.3% grasp-and-pull success, and 84.3% overall harvesting success. These results illustrate that task-specific perception combined with simulation-trained PPO can serve as a practical and resource-efficient alternative to conventional planner-dependent reaching in manipulation, enabling reliable closed-loop robotic harvesting in complex agricultural environments.
- Abstract(参考訳): 本研究では,ロバストビジョンモジュール,シミュレーション学習型深部強化学習(DRL)制御,ROSベースの実ロボット実行を組み合わせたクローズドループロボットイチゴ収穫システムを提案する。
HRAttnEdge-YOLO26-segは,高分解能なP2ブランチ,セグメンテーションパスアテンション,エッジ教師によるプロトタイプ学習を組み込んだ改良型YOLO26セグアーキテクチャである。
制御のために、Isaac Labでターゲット条件のPPOポリシーを訓練し、UR10eマニピュレータ用のスムーズなジョイントポジションコマンドを作成し、UR10eロボットに配置し、ターゲットフルーツに到達して収穫する。
このシミュレーションベースのアプローチは、ハードウェア依存を減らし、開発コストを削減し、実際のデプロイ前に物理的な試行を徹底せずにスケーラブルなポリシートレーニングを可能にする。
提案した視覚モデルは,評価手法の中で最も高い総合性能を示した。
自己収集と公開の両方のデータセットでは、セグメンテーションのパフォーマンスが10~14%向上した。
室内での制御試験では、PPOコントローラは逆キネマティクス(IK)ベースのMoveItベースラインよりも安定かつ動的に運動する。
温室試験では281個のイチゴを収穫し、96.6%が成功、91.3%が成功、84.3%が収穫に成功した。
これらの結果から,シミュレーション学習型PPOと組み合わせたタスク固有認識は,複雑な農業環境下でのクローズドループロボットの収穫を可能とし,従来のプランナー依存型リーチの代替として実用的で資源効率のよいものとなる可能性が示唆された。
関連論文リスト
- Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application [0.0]
Deep Reinforcement Learning (DRL)は、自律的な水中ドッキングのための従来の制御方法に代わる堅牢な代替手段を提供する。
本稿では,高忠実なディジタル双生児環境を活用することで,ジローナ自律水中車両(AUV)を用いた自律ドッキングの体系的アプローチを提案する。
論文 参考訳(メタデータ) (2026-03-12T15:01:25Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models [42.89413870143421]
VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。
グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。
本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
論文 参考訳(メタデータ) (2025-11-19T16:52:23Z) - Learning to Optimize Package Picking for Large-Scale, Real-World Robot Induction [17.521846970697535]
本稿では, 変態調整を予測し, サンプルピック用吸引カップの選択を改善し, 成功確率を高めるMLベースのフレームワークを提案する。
提案手法は, 大規模な倉庫自動化シナリオにおいて, サンプルベースサンプリングベースラインと比較して, ピック故障率を20%削減し, その有効性を実証する。
論文 参考訳(メタデータ) (2025-06-11T14:04:50Z) - Learning Efficient Flocking Control based on Gibbs Random Fields [8.715391538937707]
Gibbs Random Fields (GRF) を用いたマルチエージェント強化学習フレームワーク
アクションアテンションモジュールは、隣接するロボットの動作意図を暗黙的に予測するために導入される。
提案されたフレームワークは、成功率99%の挑戦的な環境で、マルチロボットシステムの効率的な分散制御ポリシーを学習することを可能にする。
論文 参考訳(メタデータ) (2025-02-05T08:27:58Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。