Fugu-MT 論文翻訳(概要): Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL

論文の概要: Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL

arxiv url: http://arxiv.org/abs/2410.02874v1
Date: Mon, 7 Oct 2024 01:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 05:14:45.910172
Title: Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL
Title（参考訳）: 基礎モデルとPDDLを用いた食品状態認識に基づくレシピからのリアルタイム調理ロボットシステム
Authors: Naoaki Kanazawa, Kento Kawaharazuka, Yoshiki Obinata, Kei Okada, Masayuki Inaba,
Abstract要約: 本研究では,実世界のロボット調理行動計画を統合したロボットシステムを提案する。両腕の車輪付きロボットであるPR2が、現実の環境で配置された新しいレシピを調理する実験に成功した。
参考スコア（独自算出の注目度）: 17.164384202639496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although there is a growing demand for cooking behaviours as one of the expected tasks for robots, a series of cooking behaviours based on new recipe descriptions by robots in the real world has not yet been realised. In this study, we propose a robot system that integrates real-world executable robot cooking behaviour planning using the Large Language Model (LLM) and classical planning of PDDL descriptions, and food ingredient state recognition learning from a small number of data using the Vision-Language model (VLM). We succeeded in experiments in which PR2, a dual-armed wheeled robot, performed cooking from arranged new recipes in a real-world environment, and confirmed the effectiveness of the proposed system.
Abstract（参考訳）: ロボットが期待する課題の一つとして調理行動の需要が高まっているが、ロボットによるロボットによる新しいレシピ記述に基づく一連の調理行動はまだ実現されていない。本研究では,Large Language Model (LLM) とPDDL記述の古典的計画を用いた実世界のロボット調理行動計画と,Vision-Language Model (VLM) を用いた少数のデータからの食品成分状態認識学習を統合するロボットシステムを提案する。両腕の車輪付きロボットであるPR2が、実環境において配置された新しいレシピから調理を行い、提案システムの有効性を確認した。

関連論文リスト

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文参考訳（メタデータ） (2025-05-03T06:17:18Z)
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文参考訳（メタデータ） (2025-03-18T21:06:21Z)
Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
強化学習(Reinforcement Learning, RL)は、エージェントが対話や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLLMであるGPT-4を利用した教師なしパイプラインを提案する。報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
論文参考訳（メタデータ） (2025-03-06T10:08:44Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
SliceIt! -- A Dual Simulator Framework for Learning Robot Food Slicing [5.497832119577795]
本研究は、ロボットが自律的かつ安全に食品切断タスクを学習できるようにすることに焦点を当てる。シミュレーションにおけるロボット食品スライシングタスクを安全かつ効率的に学習するフレームワークであるSliceIt!を提案する。
論文参考訳（メタデータ） (2024-04-03T08:42:36Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文参考訳（メタデータ） (2024-01-23T18:45:54Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Robotic Handling of Compliant Food Objects by Robust Learning from Demonstration [79.76009817889397]
本稿では,食品に適合する物体をロボットで把握する上で,実証からの学習(LfD)に基づく頑健な学習方針を提案する。教師の意図した方針を推定し,無矛盾な実演を自動的に除去するLfD学習ポリシーを提案する。提案されたアプローチは、前述の業界セクターで幅広い応用が期待できる。
論文参考訳（メタデータ） (2023-09-22T13:30:26Z)
Learning Sequential Acquisition Policies for Robot-Assisted Feeding [37.371967116072966]
本稿では,長期食品購入の枠組みとして,視覚行動計画OveRシーケンス(VAPORS)を提案する。 VAPORSは、シミュレーションにおいて学習された潜在プレートダイナミクスを活用することで、ハイレベルなアクション選択のポリシーを学習する。我々は,ヌードル獲得とゼリー豆のバイマンスクーピングを含む複雑な実世界の買収試験に対するアプローチを検証した。
論文参考訳（メタデータ） (2023-09-11T02:20:28Z)
FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文参考訳（メタデータ） (2023-08-28T08:14:20Z)
SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文参考訳（メタデータ） (2021-11-29T16:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。