論文の概要: Task-Relevant and Irrelevant Region-Aware Augmentation for Generalizable Vision-Based Imitation Learning in Agricultural Manipulation
- arxiv url: http://arxiv.org/abs/2603.04845v1
- Date: Thu, 05 Mar 2026 05:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.927187
- Title: Task-Relevant and Irrelevant Region-Aware Augmentation for Generalizable Vision-Based Imitation Learning in Agricultural Manipulation
- Title(参考訳): 農業マニピュレーションにおける一般化可能な視覚的模倣学習のためのタスク関連・非関連領域対応強化
- Authors: Shun Hattori, Hikaru Sasaki, Takumi Hachimine, Yusuke Mizutani, Takamitsu Matsubara,
- Abstract要約: 本稿では,農業操作における視覚に基づく模倣学習のためのDRAIL(Dual-Region Augmentation for Imitation Learning)を提案する。
DRAILは視覚的観察をタスク関連領域とタスク関連領域に分離する。
DRAILは、両方の視覚的変化の源泉を共同で扱うことにより、偶発的な視覚的手がかりではなく、タスクの意味的な特徴に依存する学習ポリシーを促進する。
- 参考スコア(独自算出の注目度): 3.7323019541958193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based imitation learning has shown promise for robotic manipulation; however, its generalization remains limited in practical agricultural tasks. This limitation stems from scarce demonstration data and substantial visual domain gaps caused by i) crop-specific appearance diversity and ii) background variations. To address this limitation, we propose Dual-Region Augmentation for Imitation Learning (DRAIL), a region-aware augmentation framework designed for generalizable vision-based imitation learning in agricultural manipulation. DRAIL explicitly separates visual observations into task-relevant and task-irrelevant regions. The task-relevant region is augmented in a domain-knowledge-driven manner to preserve essential visual characteristics, while the task-irrelevant region is aggressively randomized to suppress spurious background correlations. By jointly handling both sources of visual variation, DRAIL promotes learning policies that rely on task-essential features rather than incidental visual cues. We evaluate DRAIL on diffusion policy-based visuomotor controllers through robot experiments on artificial vegetable harvesting and real lettuce defective leaf picking preparation tasks. The results show consistent improvements in success rates under unseen visual conditions compared to baseline methods. Further attention analysis and representation generalization metrics indicate that the learned policies rely more on task-essential visual features, resulting in enhanced robustness and generalization.
- Abstract(参考訳): 視覚に基づく模倣学習はロボット操作の可能性を示唆しているが、その一般化は実践的な農業作業に限られている。
この制限は、デモデータ不足と視覚領域の実質的ギャップに起因する。
一 作物特有の外見の多様性及び
ii)背景の変化。
この制限に対処するため,農業操作における視覚に基づく模倣学習の一般化を目的とした地域対応強化フレームワークであるDRAILを提案する。
DRAILは視覚的観察をタスク関連領域とタスク関連領域に明確に分離する。
タスク関連領域は、本質的な視覚特性を維持するためにドメイン知識駆動方式で拡張され、タスク関連領域は積極的にランダム化され、急激な背景相関を抑制する。
DRAILは、両方の視覚的変化の源泉を共同で扱うことにより、偶発的な視覚的手がかりではなく、タスクの意味的な特徴に依存する学習ポリシーを促進する。
DRAILは, 人工野菜収穫と実際のレタス葉摘採作業におけるロボット実験により, 拡散政策に基づく振動子制御装置上での評価を行う。
その結果, 目立たない視覚条件下での成功率は, 基準法に比べて一貫した改善が見られた。
さらなる注意分析と表現一般化のメトリクスは、学習されたポリシーがタスク中心の視覚的特徴に依存しており、その結果、堅牢性と一般化が強化されることを示している。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。
AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。
以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文 参考訳(メタデータ) (2025-11-13T19:31:05Z) - Exploring Conditions for Diffusion models in Robotic Control [70.27711404291573]
我々は,ロボット制御のためのタスク適応型視覚表現を得るために,事前学習したテキスト・画像拡散モデルを活用することを検討する。
テキスト条件をナビゲート的に適用すると、制御タスクにおいて最小あるいは負の利得が得られることがわかった。
本稿では,制御環境に適応する学習可能なタスクプロンプトと,細粒度でフレーム固有の細部をキャプチャする視覚プロンプトを提案する。
論文 参考訳(メタデータ) (2025-10-17T10:24:14Z) - ImitDiff: Transferring Foundation-Model Priors for Distraction Robust Visuomotor Policy [39.06557194970261]
ImitDiff(イミットディフ)は、微細な意味論によって導かれる拡散に基づく模倣学習政策である。
提案手法は,高レベルの命令を画素レベルの視覚意味マスクに変換する。
ImitDiffは、新しいオブジェクトや視覚的邪魔を含むゼロショット設定において、強力な一般化を示している。
論文 参考訳(メタデータ) (2025-02-11T14:03:57Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。