論文の概要: Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types
- arxiv url: http://arxiv.org/abs/2403.12891v1
- Date: Tue, 19 Mar 2024 16:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:24:34.134467
- Title: Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types
- Title(参考訳): 養豚型と食型におけるロボット支援給餌のための適応型視覚模倣学習
- Authors: Rui Liu, Amisha Bhaskar, Pratap Tokekar,
- Abstract要約: ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
- 参考スコア(独自算出の注目度): 17.835835270751176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we introduce a novel visual imitation network with a spatial attention module for robotic assisted feeding (RAF). The goal is to acquire (i.e., scoop) food items from a bowl. However, achieving robust and adaptive food manipulation is particularly challenging. To deal with this, we propose a framework that integrates visual perception with imitation learning to enable the robot to handle diverse scenarios during scooping. Our approach, named AVIL (adaptive visual imitation learning), exhibits adaptability and robustness across different bowl configurations in terms of material, size, and position, as well as diverse food types including granular, semi-solid, and liquid, even in the presence of distractors. We validate the effectiveness of our approach by conducting experiments on a real robot. We also compare its performance with a baseline. The results demonstrate improvement over the baseline across all scenarios, with an enhancement of up to 2.5 times in terms of a success metric. Notably, our model, trained solely on data from a transparent glass bowl containing granular cereals, showcases generalization ability when tested zero-shot on other bowl configurations with different types of food.
- Abstract(参考訳): 本研究では,ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
目標は、ボウルから食品(スクープ)を取得することである。
しかし、堅牢で適応的な食品操作を実現することは特に困難である。
そこで本研究では,視覚認識と模倣学習を融合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL (adaptive visual mimicion learning, 適応的視覚模倣学習) と呼ばれる我々のアプローチは, 材料, サイズ, 位置, および, 微粒, 半固形, 液体などの様々な食品の種類において, イントラクタの存在下においても適応性と堅牢性を示す。
実際のロボットで実験を行うことで,本手法の有効性を検証した。
また、そのパフォーマンスをベースラインと比較します。
その結果、すべてのシナリオでベースラインよりも改善され、成功度合いの点で最大2.5倍に向上した。
特に,粒状穀物を含む透明ガラスボウルのデータのみをトレーニングした本モデルでは,食品の種類が異なる他のボウル構成でゼロショット試験を行った場合,一般化能力を示す。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition [16.32678094159896]
IMRL(Integrated Multi-dimensional Representation Learning, 統合多次元表現学習)を導入し, 食品取得におけるILの堅牢性と一般化性を高めるために視覚的, 物理的, 時間的, 幾何学的表現を統合した。
提案手法は, 食品の種類や物理的特性を捉え, 獲得行動の時間的ダイナミクスをモデル化し, 最適スクーピング点を決定するための幾何学的情報を導入する。
IMRLにより、ILはコンテキストに基づいてスクーピング戦略を適応的に調整し、多様な食品取得シナリオを扱うロボットの能力を改善することができる。
論文 参考訳(メタデータ) (2024-09-18T16:09:06Z) - FLAIR: Feeding via Long-horizon AcquIsition of Realistic dishes [23.72810526053693]
FLAIRは、基礎モデルの常識と少数ショット推論能力を活用する、長期給餌システムである。
現実的な6つのプレートの実際の評価では、FLAIRは効率的な食品のピックアップのために、様々なスキルのライブラリーを効果的に活用できることがわかった。
論文 参考訳(メタデータ) (2024-07-10T11:38:57Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Learning Sequential Acquisition Policies for Robot-Assisted Feeding [37.371967116072966]
本稿では,長期食品購入の枠組みとして,視覚行動計画OveRシーケンス(VAPORS)を提案する。
VAPORSは、シミュレーションにおいて学習された潜在プレートダイナミクスを活用することで、ハイレベルなアクション選択のポリシーを学習する。
我々は,ヌードル獲得とゼリー豆のバイマンスクーピングを含む複雑な実世界の買収試験に対するアプローチを検証した。
論文 参考訳(メタデータ) (2023-09-11T02:20:28Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Rethinking Cooking State Recognition with Vision Transformers [0.0]
料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-12-16T17:06:28Z) - Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding [13.381485293778654]
我々は、物体との相互作用における視覚的および触覚的な観察を活用して、ストーブ動作を計画する。
我々は、生の感覚入力から食品の一般化可能なマルチモーダル表現を学習する。
既往のアイテムのビジュオハプティックな特性を検知し,反応的にストーブするゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-26T20:01:03Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。