論文の概要: HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild
- arxiv url: http://arxiv.org/abs/2603.05982v1
- Date: Fri, 06 Mar 2026 07:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.288226
- Title: HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild
- Title(参考訳): HarvestFlex: 野生でのビジョンランゲージ・アクションポリシー適応によるイチゴの収穫
- Authors: Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong,
- Abstract要約: 本研究は, イチゴの実栽培における視覚-言語-反応(VLA)政策の転換に関する最初の研究である。
我々はHarvestFlexプラットフォーム上に3ビューRGBセンシングを用いたエンドツーエンドのクローズドループシステムを構築した。
その結果、非自明なクローズドループピックは4時間未満の実データであり、クローズレンジの可観測性損失と接触力学ミスマッチによって制限されたままであった。
- 参考スコア(独自算出の注目度): 5.953529529989388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work presents the first study on transferring vision-language-action (VLA) policies to real greenhouse tabletop strawberry harvesting, a long-horizon, unstructured task challenged by occlusion and specular reflections. We built an end-to-end closed-loop system on the HarvestFlex platform using three-view RGB sensing (two fixed scene views plus a wrist-mounted view) and intentionally avoided depth clouds and explicit geometric calibration. We collected 3.71 h of VR teleoperated demonstrations (227 episodes) and fine-tuned pi_0, pi_0.5, and WALL-OSS with full fine-tuning and LoRA. Under a unified 50 trials real-greenhouse protocol and metrics spanning completion, pi_0.5 with full fine-tuning achieved success rate of 74.0% with 32.6 s/pick and damage rate of 4.1%. Asynchronous inference-control decoupling further improved performance over synchronous deployment. Results showed non-trivial closed-loop picking with fewer than four hours of real data, while remaining limited by close-range observability loss and contact-dynamics mismatch. A demonstration video is available at: https://youtu.be/bN8ZowZKPMI.
- Abstract(参考訳): この研究は、視覚-言語-反応(VLA)ポリシーを実際の温室用テーブルトップイチゴ収穫に転送する最初の研究である。
我々はHarvestFlexプラットフォーム上に,3次元RGBセンシング(固定シーンビューと手首マウントビュー)と,奥行き雲と明示的な幾何キャリブレーションを意図的に回避したエンド・ツー・エンドのクローズドループシステムを構築した。
我々は,VR遠隔操作デモ(227エピソード)の3.71時間,細調整したpi_0,pi_0.5,WALL-OSSをフル微調整とLORAで収集した。
完全な微調整を施したpi_0.5は、50の試行と完成度で74.0%、32.6秒/ピック、損傷率4.1%を達成した。
非同期推論制御の分離により、同期デプロイメントよりもパフォーマンスが向上した。
その結果、非自明なクローズドループピックは4時間未満の実データであり、クローズレンジの可観測性損失と接触力学ミスマッチによって制限されたままであった。
デモビデオは、https://youtu.be/bN8ZowZKPMI.comで公開されている。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - CoV: Chain-of-View Prompting for Spatial Reasoning [64.77921266428824]
CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
論文 参考訳(メタデータ) (2026-01-08T17:59:42Z) - OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios [39.58602686069029]
OmniGroundは、81のカテゴリにまたがる3,475の動画と複雑な現実世界のクエリを備えた総合的なベンチマークである。
また、4つの相補的な次元にわたるデータセット品質を定量化するシステム評価フレームワークであるDeepSTGについても紹介する。
実験では、PG-TAFはm_tIoUとm_vIoUを25.6%、35.6%改善し、4つのベンチマークで一貫した利得を得た。
論文 参考訳(メタデータ) (2025-11-21T04:23:04Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control [24.588260602136867]
乱雑な環境下での新規物体に対する閉ループ視覚に基づく把握ポリシーであるGrasp-MPCを提案する。
Grasp-MPCは200万のグリップ軌跡からなる大規模な合成データセットから視覚観測に基づいて訓練された値関数を組み込んでいる。
FetchBench上でのGrasp-MPCと,各種環境における実環境設定の評価を行った。
論文 参考訳(メタデータ) (2025-09-07T20:28:21Z) - Online Estimation of Table-Top Grown Strawberry Mass in Field Conditions with Occlusions [2.736203444988168]
本研究では、RGB-Dセンシングとディープラーニングを統合したビジョンベースパイプラインを提案し、非破壊的、リアルタイム、オンラインの質量推定を可能にする。
実験では、イチゴが8.11%、閉塞例が10.47%の質量推定誤差が示された。
論文 参考訳(メタデータ) (2025-07-31T12:10:23Z) - Decoupled Diffusion Sparks Adaptive Scene Generation [21.879138794472194]
制御可能なシーン生成は、自律運転のための多様なデータ収集のコストを大幅に削減する可能性がある。
以前の作業では、トラフィックレイアウト生成を予測進行として、全シーケンスを一度にデノイングするか、あるいは次のフレームを反復的に予測することで定式化している。
Nexusは、日常シナリオと課題シナリオの両方をシミュレートすることで、反応性と目標条件を改善する、分離されたシーン生成フレームワークである。
論文 参考訳(メタデータ) (2025-04-14T17:59:57Z) - GSRender: Deduplicated Occupancy Prediction via Weakly Supervised 3D Gaussian Splatting [7.936178003928951]
それまでの弱い監督されたNeRF法では、カメラ線に沿ったサンプリング数によってmIoUが5~10ポイント変化し、効率と精度のバランスが取れていた。
本稿では,GSRenderを提案する。GSRenderは自然に3次元ガウススプラッティングを用いて占有率予測を行い,サンプリングプロセスを簡素化する。
提案手法は,RayIoU (+6.0) においてSOTAを達成し,そのギャップを3次元監視法で狭める。
論文 参考訳(メタデータ) (2024-12-19T06:57:37Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。