論文の概要: IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition
- arxiv url: http://arxiv.org/abs/2409.12092v1
- Date: Wed, 18 Sep 2024 16:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:45:43.749151
- Title: IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition
- Title(参考訳): IMRL:食物獲得のための視覚・身体・時間・幾何学的表現の統合
- Authors: Rui Liu, Zahiruddin Mahammad, Amisha Bhaskar, Pratap Tokekar,
- Abstract要約: IMRL(Integrated Multi-dimensional Representation Learning, 統合多次元表現学習)を導入し, 食品取得におけるILの堅牢性と一般化性を高めるために視覚的, 物理的, 時間的, 幾何学的表現を統合した。
提案手法は, 食品の種類や物理的特性を捉え, 獲得行動の時間的ダイナミクスをモデル化し, 最適スクーピング点を決定するための幾何学的情報を導入する。
IMRLにより、ILはコンテキストに基づいてスクーピング戦略を適応的に調整し、多様な食品取得シナリオを扱うロボットの能力を改善することができる。
- 参考スコア(独自算出の注目度): 16.32678094159896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robotic assistive feeding holds significant promise for improving the quality of life for individuals with eating disabilities. However, acquiring diverse food items under varying conditions and generalizing to unseen food presents unique challenges. Existing methods that rely on surface-level geometric information (e.g., bounding box and pose) derived from visual cues (e.g., color, shape, and texture) often lacks adaptability and robustness, especially when foods share similar physical properties but differ in visual appearance. We employ imitation learning (IL) to learn a policy for food acquisition. Existing methods employ IL or Reinforcement Learning (RL) to learn a policy based on off-the-shelf image encoders such as ResNet-50. However, such representations are not robust and struggle to generalize across diverse acquisition scenarios. To address these limitations, we propose a novel approach, IMRL (Integrated Multi-Dimensional Representation Learning), which integrates visual, physical, temporal, and geometric representations to enhance the robustness and generalizability of IL for food acquisition. Our approach captures food types and physical properties (e.g., solid, semi-solid, granular, liquid, and mixture), models temporal dynamics of acquisition actions, and introduces geometric information to determine optimal scooping points and assess bowl fullness. IMRL enables IL to adaptively adjust scooping strategies based on context, improving the robot's capability to handle diverse food acquisition scenarios. Experiments on a real robot demonstrate our approach's robustness and adaptability across various foods and bowl configurations, including zero-shot generalization to unseen settings. Our approach achieves improvement up to $35\%$ in success rate compared with the best-performing baseline.
- Abstract(参考訳): ロボット補助給餌は、摂食障害を持つ個人の生活の質を向上させるための重要な約束である。
しかし、さまざまな条件下で多様な食品を入手し、目に見えない食品に一般化することは、ユニークな課題である。
視覚的手がかり(例えば、色、形、テクスチャ)から得られる表面レベルの幾何学的情報(例えば、境界箱、ポーズ)に依存する既存の方法は、適応性と堅牢性に欠けることが多い。
食品購入政策の学習には模倣学習(IL)を用いる。
既存の手法では、ResNet-50のような既製のイメージエンコーダに基づいてポリシーを学ぶために、IL(Reinforcement Learning)またはReinforcement Learning(RL)を採用している。
しかし、そのような表現は堅牢ではなく、多様な獲得シナリオにまたがる一般化に苦慮している。
これらの制約に対処するために、食品取得におけるILの堅牢性と一般化性を高めるために、視覚的、物理的、時間的、幾何学的表現を統合した新しいアプローチであるIMRL(Integrated Multi-dimensional Representation Learning)を提案する。
提案手法は, 食品の種類や物性(固形, 半固形, 粒状, 液状, 混合)を把握し, 獲得行動の時間的ダイナミクスをモデル化し, 最適スクーピング点を決定するための幾何学的情報を導入し, ボウルフルネスを評価する。
IMRLにより、ILはコンテキストに基づいてスクーピング戦略を適応的に調整し、多様な食品取得シナリオを扱うロボットの能力を改善することができる。
実際のロボットの実験では、ゼロショットの一般化から目に見えない設定まで、さまざまな食品やボウルの構成に対して、アプローチの堅牢性と適応性を示す。
提案手法は, 最高性能のベースラインと比較して, 最大35 % の成果率向上を実現している。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Learning to Classify New Foods Incrementally Via Compressed Exemplars [8.277136664415513]
食品画像分類システムは、画像に基づく食事評価技術を通じて、健康モニタリングと食事追跡において重要な役割を担っている。
既存の食品認識システムは、予め定義された一定数の食品クラスによって特徴づけられる静的なデータセットに依存している。
我々は、圧縮されたデータの品質を適応的に改善するために、ニューラル圧縮モデルを継続的に学習するという概念を紹介した。
論文 参考訳(メタデータ) (2024-04-11T06:55:44Z) - Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:40:57Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - Robotic Handling of Compliant Food Objects by Robust Learning from
Demonstration [79.76009817889397]
本稿では,食品に適合する物体をロボットで把握する上で,実証からの学習(LfD)に基づく頑健な学習方針を提案する。
教師の意図した方針を推定し,無矛盾な実演を自動的に除去するLfD学習ポリシーを提案する。
提案されたアプローチは、前述の業界セクターで幅広い応用が期待できる。
論文 参考訳(メタデータ) (2023-09-22T13:30:26Z) - Learning Sequential Acquisition Policies for Robot-Assisted Feeding [37.371967116072966]
本稿では,長期食品購入の枠組みとして,視覚行動計画OveRシーケンス(VAPORS)を提案する。
VAPORSは、シミュレーションにおいて学習された潜在プレートダイナミクスを活用することで、ハイレベルなアクション選択のポリシーを学習する。
我々は,ヌードル獲得とゼリー豆のバイマンスクーピングを含む複雑な実世界の買収試験に対するアプローチを検証した。
論文 参考訳(メタデータ) (2023-09-11T02:20:28Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - NutritionVerse-Thin: An Optimized Strategy for Enabling Improved
Rendering of 3D Thin Food Models [66.77685168785152]
薄型3D食品モデルのレンダリングを改善するための最適化戦略を提案する。
提案手法は,薄膜最適化微分可能再構成法を用いて3次元モデルメッシュを生成する。
単純ながら、この技術は細い3Dオブジェクトの迅速かつ高度に一貫したキャプチャに利用できる。
論文 参考訳(メタデータ) (2023-04-12T05:34:32Z) - Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding [13.381485293778654]
我々は、物体との相互作用における視覚的および触覚的な観察を活用して、ストーブ動作を計画する。
我々は、生の感覚入力から食品の一般化可能なマルチモーダル表現を学習する。
既往のアイテムのビジュオハプティックな特性を検知し,反応的にストーブするゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-26T20:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。