論文の概要: Cluttered Food Grasping with Adaptive Fingers and Synthetic-Data Trained
Object Detection
- arxiv url: http://arxiv.org/abs/2203.05187v1
- Date: Thu, 10 Mar 2022 06:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-12 01:00:28.708424
- Title: Cluttered Food Grasping with Adaptive Fingers and Synthetic-Data Trained
Object Detection
- Title(参考訳): 適応指を用いたクラッタ食品把握と合成データ学習物体検出
- Authors: Avinash Ummadisingu, Kuniyuki Takahashi, Naoki Fukaya
- Abstract要約: 食品包装産業は、幅広い形状と大きさのさまざまな食品を扱う。
ビンピッキングの一般的なアプローチは、まず、インスタンスセグメンテーション法を用いてトレイ内の各食品を識別することである。
合成データを純粋に訓練し,sim2real法を用いて実世界へ転送する手法を提案する。
- 参考スコア(独自算出の注目度): 8.218146534971156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The food packaging industry handles an immense variety of food products with
wide-ranging shapes and sizes, even within one kind of food. Menus are also
diverse and change frequently, making automation of pick-and-place difficult. A
popular approach to bin-picking is to first identify each piece of food in the
tray by using an instance segmentation method. However, human annotations to
train these methods are unreliable and error-prone since foods are packed close
together with unclear boundaries and visual similarity making separation of
pieces difficult. To address this problem, we propose a method that trains
purely on synthetic data and successfully transfers to the real world using
sim2real methods by creating datasets of filled food trays using high-quality
3d models of real pieces of food for the training instance segmentation models.
Another concern is that foods are easily damaged during grasping. We address
this by introducing two additional methods -- a novel adaptive finger mechanism
to passively retract when a collision occurs, and a method to filter grasps
that are likely to cause damage to neighbouring pieces of food during a grasp.
We demonstrate the effectiveness of the proposed method on several kinds of
real foods.
- Abstract(参考訳): 食品包装産業は、幅広い形状と大きさの食品を1種類の食品の中にさえも扱っている。
メニューも多様で頻繁に変更され、ピック・アンド・プレイスの自動化が困難になる。
ビンピッキングの一般的なアプローチは、インスタンスセグメンテーションメソッドを使用して、まずトレイ内の各食品を識別することである。
しかし,食品は不明瞭な境界と視覚的な類似性で密集しており,部品の分離が困難であるため,これらの手法を訓練するヒューマンアノテーションは信頼性が低く,誤りやすい。
そこで本研究では, 実食品の高品質な3次元モデルを用いて, 食品トレイのデータセットを作成し, 合成データに基づいて純粋に訓練し, 実世界への移動を成功させる手法を提案する。
もう一つの懸念は、食品は把持時に損傷しやすいことである。
衝突時に受動的に引きずり出す新しい適応指機構と、握り中に隣り合う食物に損傷を与える可能性のあるつかみをフィルターする方法の2つの追加手法を導入することで、この問題に対処する。
提案手法がいくつかの実食品に有効であることを示す。
関連論文リスト
- RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:40:57Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Cook-Gen: Robust Generative Modeling of Cooking Actions from Recipes [6.666528076345153]
食品計算モデルは、健康的な食事習慣を維持するのを助けることで、ますます人気が高まっている。
本研究では,調理行動を含む現在の食品計算モデルを拡張するための生成AI手法について検討する。
本稿では,レシピから調理動作を確実に生成する新しいアグリゲーションベースの生成AI手法であるCook-Genを提案する。
論文 参考訳(メタデータ) (2023-06-01T18:49:47Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Leveraging Post Hoc Context for Faster Learning in Bandit Settings with
Applications in Robot-Assisted Feeding [23.368884607763093]
自律的なロボット支援給餌には、さまざまな食品を入手する能力が必要である。
以前の研究では、問題は視覚的コンテキストを持つ線形バンディットとして表現できることが示されていた。
本稿では,ポストホックコンテキストを付加したリニアコンテキスト帯域幅フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-05T01:28:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。