論文の概要: Continuous Object State Recognition for Cooking Robots Using Pre-Trained
Vision-Language Models and Black-box Optimization
- arxiv url: http://arxiv.org/abs/2403.08239v1
- Date: Wed, 13 Mar 2024 04:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:50:07.669775
- Title: Continuous Object State Recognition for Cooking Robots Using Pre-Trained
Vision-Language Models and Black-box Optimization
- Title(参考訳): 事前訓練による調理ロボットの連続物体状態認識
視覚言語モデルとブラックボックス最適化
- Authors: Kento Kawaharazuka and Naoaki Kanazawa and Yoshiki Obinata and Kei
Okada and Masayuki Inaba
- Abstract要約: 本稿では,ロボットを調理する際の食品の状態変化を音声言語で認識する手法を提案する。
各テキストの重み付けを調整することで、より正確で堅牢な連続状態認識を実現することができることを示す。
- 参考スコア(独自算出の注目度): 18.41474014665171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state recognition of the environment and objects by robots is generally
based on the judgement of the current state as a classification problem. On the
other hand, state changes of food in cooking happen continuously and need to be
captured not only at a certain time point but also continuously over time. In
addition, the state changes of food are complex and cannot be easily described
by manual programming. Therefore, we propose a method to recognize the
continuous state changes of food for cooking robots through the spoken language
using pre-trained large-scale vision-language models. By using models that can
compute the similarity between images and texts continuously over time, we can
capture the state changes of food while cooking. We also show that by adjusting
the weighting of each text prompt based on fitting the similarity changes to a
sigmoid function and then performing black-box optimization, more accurate and
robust continuous state recognition can be achieved. We demonstrate the
effectiveness and limitations of this method by performing the recognition of
water boiling, butter melting, egg cooking, and onion stir-frying.
- Abstract(参考訳): ロボットによる環境や物体の状態の認識は、一般に、分類問題として現在の状態の判断に基づいている。
一方、調理中の食品の状態変化は連続的に起こるため、特定の時点だけでなく、時間とともに常に捕獲される必要がある。
加えて、食品の状態変化は複雑であり、手動プログラミングでは容易に説明できない。
そこで本研究では,ロボットの調理における食品の連続状態変化を,事前学習した大規模視覚言語モデルを用いて音声認識することで認識する手法を提案する。
画像とテキストの類似性を時間とともに連続的に計算できるモデルを使用することで、調理中の食品の状態変化を捉えることができる。
また,Sigmoid関数の類似性変化に適合して各テキストプロンプトの重み付けを調整し,ブラックボックス最適化を行うことにより,より正確で堅牢な連続状態認識を実現することを示す。
本手法の有効性と限界は, 沸騰, バター融解, 卵炊き, 玉ねぎかきの認識によって示される。
関連論文リスト
- Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization [17.164384202639496]
本稿では,事前学習された視覚言語モデルを用いたロボット状態認識手法を提案する。
透明扉の開閉状態、蛇口から水が流れているか否か、キッチンがきれいかどうかの定性的状態さえ認識することができる。
論文 参考訳(メタデータ) (2024-10-30T05:34:52Z) - ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization [17.164384202639496]
音声言語によるロボットの環境認識を統一的に行う。
部屋のドアが開閉されているだけでなく、透明なドアが開閉されているかどうかを認識できることを示す。
本研究では,本手法の有効性を実験的に実証し,移動ロボットFetchの認識行動に適用する。
論文 参考訳(メタデータ) (2024-09-26T04:02:20Z) - Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:40:57Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Rethinking Cooking State Recognition with Vision Transformers [0.0]
料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-12-16T17:06:28Z) - Counterfactual Recipe Generation: Exploring Compositional Generalization
in a Realistic Scenario [60.20197771545983]
本研究では,材料の変化に応じて基本レシピを変更するようモデルに依頼する,反現実的なレシピ生成タスクを設計する。
料理の知識を学習するモデルのために、中国語で大規模なレシピデータセットを収集する。
その結果、既存のモデルでは原文のスタイルを保ちながら素材の変更が困難であり、調整が必要なアクションを見逃すことがしばしばあった。
論文 参考訳(メタデータ) (2022-10-20T17:21:46Z) - A Bayesian Treatment of Real-to-Sim for Deformable Object Manipulation [59.29922697476789]
本稿では,変形可能な物体の状態を分布埋め込みとして表現する手法を用いて,画像列から状態情報を抽出する手法を提案する。
実験により, 弾性, 摩擦, スケールなどの物性の後方分布を, 布やロープなどの高変形性物体で推定できることが確認された。
論文 参考訳(メタデータ) (2021-12-09T17:50:54Z) - Classifying States of Cooking Objects Using Convolutional Neural Network [6.127963013089406]
主な目的は、調理プロセスをより簡単で安全にし、人間の福祉を創ることである。
ロボットは調理環境を理解し,特に調理対象の状態を正確に認識することが重要である。
このプロジェクトでは、料理物の状態をスクラッチから分類するための堅牢な深層畳み込みニューラルネットワークを設計するために、実験の一部が実施された。
論文 参考訳(メタデータ) (2021-04-30T22:26:40Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。