Fugu-MT 論文翻訳(概要): Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding

論文の概要: Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding

arxiv url: http://arxiv.org/abs/2211.14648v2
Date: Wed, 30 Nov 2022 01:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 15:12:33.288369
Title: Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding
Title（参考訳）: ロボット支援給餌におけるビジュオ・ハプティック・スキューイングの学習
Authors: Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh
Abstract要約: 我々は、物体との相互作用における視覚的および触覚的な観察を活用して、ストーブ動作を計画する。我々は、生の感覚入力から食品の一般化可能なマルチモーダル表現を学習する。既往のアイテムのビジュオハプティックな特性を検知し,反応的にストーブするゼロショットフレームワークを提案する。
参考スコア（独自算出の注目度）: 13.381485293778654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Acquiring food items with a fork poses an immense challenge to a robot-assisted feeding system, due to the wide range of material properties and visual appearances present across food groups. Deformable foods necessitate different skewering strategies than firm ones, but inferring such characteristics for several previously unseen items on a plate remains nontrivial. Our key insight is to leverage visual and haptic observations during interaction with an item to rapidly and reactively plan skewering motions. We learn a generalizable, multimodal representation for a food item from raw sensory inputs which informs the optimal skewering strategy. Given this representation, we propose a zero-shot framework to sense visuo-haptic properties of a previously unseen item and reactively skewer it, all within a single interaction. Real-robot experiments with foods of varying levels of visual and textural diversity demonstrate that our multimodal policy outperforms baselines which do not exploit both visual and haptic cues or do not reactively plan. Across 6 plates of different food items, our proposed framework achieves 71% success over 69 skewering attempts total. Supplementary material, datasets, code, and videos are available on our website: https://sites.google.com/view/hapticvisualnet-corl22/home
Abstract（参考訳）: フォークで食品を入手することは、食品群全体に存在する幅広い材料特性と視覚的外観のため、ロボットによる給餌システムにとって大きな課題となる。変形可能な食品は、固い食品と異なる焼成戦略を必要とするが、これまで見られなかったいくつかの食材についてそのような特性を推測することは、未だに容易ではない。我々の重要な洞察は、アイテムと相互作用する際の視覚的および触覚的な観察を活用して、スキューワー運動を迅速かつ反応性に計画することである。本研究は,食品の汎用的マルチモーダル表現を,最適なスキューリング戦略を知らせる生の感覚入力から学習する。この表現を前提として,これまで見つからなかった項目の視覚触覚特性を知覚し,それに対して反応的に歪むゼロショットフレームワークを提案する。視覚とテクスチャの多様性の異なる食品を用いた実ロボット実験は、我々のマルチモーダルポリシーが視覚と触覚の両方を活用せず、反応的に計画もしないベースラインを上回っていることを示している。 6枚の異なる食品のプレートにまたがって,提案手法は計69回以上で71%の成功を収めた。追加資料、データセット、コード、ビデオは、私たちのWebサイトで入手可能です。

関連論文リスト

LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文参考訳（メタデータ） (2025-11-20T04:38:56Z)
MultiFoodhat: A potential new paradigm for intelligent food quality inspection [7.966483944010341]
MultiFoodChatは、ゼロショット食品認識のための対話駆動型マルチエージェント推論フレームワークである。 Object Perception Token (OPT) はきめ細かい視覚特性を捉え、Interactive Reasoning Agent (IRA) は文脈的手がかりを動的に解釈して予測を洗練させる。複数の公開食品データセットの実験により、MultiFoodChatは、既存の教師なしおよび少数ショットの手法と比較して、認識精度と解釈性に優れることを示した。
論文参考訳（メタデータ） (2025-10-14T03:39:03Z)
EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models [68.96292501521827]
キッチン環境内のモーションキャプチャプラットフォームで収集したEPFL-Smart-Kitchen-30データセットについて紹介する。 9台の静止RGB-Dカメラ、慣性測定ユニット(IMU)、ヘッドマウント型HoloLens2ヘッドセットが3D手、体、眼の動きを捉えた。このデータセットは、シンクロナイズドエキソセントリック、エゴセントリック、深さ、IMU、視線、体、手動の4種類のレシピを調理する16人の被験者の29.7時間にわたる多視点アクションデータセットである。
論文参考訳（メタデータ） (2025-06-02T12:46:44Z)
ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文参考訳（メタデータ） (2024-10-17T15:22:57Z)
IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition [16.32678094159896]
IMRL(Integrated Multi-dimensional Representation Learning, 統合多次元表現学習)を導入し, 食品取得におけるILの堅牢性と一般化性を高めるために視覚的, 物理的, 時間的, 幾何学的表現を統合した。提案手法は, 食品の種類や物理的特性を捉え, 獲得行動の時間的ダイナミクスをモデル化し, 最適スクーピング点を決定するための幾何学的情報を導入する。 IMRLにより、ILはコンテキストに基づいてスクーピング戦略を適応的に調整し、多様な食品取得シナリオを扱うロボットの能力を改善することができる。
論文参考訳（メタデータ） (2024-09-18T16:09:06Z)
MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文参考訳（メタデータ） (2024-09-03T15:02:52Z)
RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。 Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文参考訳（メタデータ） (2024-07-17T16:49:34Z)
Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。 AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文参考訳（メタデータ） (2024-03-19T16:40:57Z)
Learning Sequential Acquisition Policies for Robot-Assisted Feeding [37.371967116072966]
本稿では,長期食品購入の枠組みとして,視覚行動計画OveRシーケンス(VAPORS)を提案する。 VAPORSは、シミュレーションにおいて学習された潜在プレートダイナミクスを活用することで、ハイレベルなアクション選択のポリシーを学習する。我々は,ヌードル獲得とゼリー豆のバイマンスクーピングを含む複雑な実世界の買収試験に対するアプローチを検証した。
論文参考訳（メタデータ） (2023-09-11T02:20:28Z)
Transferring Knowledge for Food Image Segmentation using Transformers and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。 1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。 2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。 BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文参考訳（メタデータ） (2023-06-15T15:38:10Z)
Self-Supervised Visual Representation Learning on Food Images [6.602838826255494]
既存の深層学習手法は、食品画像の人間のアノテーションに基づいて、下流タスクの視覚的表現を学習する。実生活のほとんどの食品画像はラベルなしで取得され、データアノテーションには多くの時間と人的労力が必要です。本稿では,食品画像における自己指導型学習手法の実装と分析に焦点をあてる。
論文参考訳（メタデータ） (2023-03-16T02:31:51Z)
A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。 ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文参考訳（メタデータ） (2021-05-12T03:00:07Z)
Leveraging Post Hoc Context for Faster Learning in Bandit Settings with Applications in Robot-Assisted Feeding [23.368884607763093]
自律的なロボット支援給餌には、さまざまな食品を入手する能力が必要である。以前の研究では、問題は視覚的コンテキストを持つ線形バンディットとして表現できることが示されていた。本稿では,ポストホックコンテキストを付加したリニアコンテキスト帯域幅フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-05T01:28:25Z)
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文参考訳（メタデータ） (2020-03-09T07:41:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。