論文の概要: Evaluation of Habitat Robotics using Large Language Models
- arxiv url: http://arxiv.org/abs/2507.06157v1
- Date: Tue, 08 Jul 2025 16:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.349222
- Title: Evaluation of Habitat Robotics using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたハビタットロボットの評価
- Authors: William Li, Lei Hamilton, Kaise Al-natour, Sanjeev Mohindra,
- Abstract要約: メタPartNERベンチマークを用いて,ロボットタスクの具体化における大規模言語モデルの有効性を評価する。
以上の結果から,OpenAI O3-miniのような推論モデルは,OpenAI GPT-4oやLlama 3といった非推論モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.1333283959406959
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper focuses on evaluating the effectiveness of Large Language Models at solving embodied robotic tasks using the Meta PARTNER benchmark. Meta PARTNR provides simplified environments and robotic interactions within randomized indoor kitchen scenes. Each randomized kitchen scene is given a task where two robotic agents cooperatively work together to solve the task. We evaluated multiple frontier models on Meta PARTNER environments. Our results indicate that reasoning models like OpenAI o3-mini outperform non-reasoning models like OpenAI GPT-4o and Llama 3 when operating in PARTNR's robotic embodied environments. o3-mini displayed outperform across centralized, decentralized, full observability, and partial observability configurations. This provides a promising avenue of research for embodied robotic development.
- Abstract(参考訳): 本稿では,Meta PartNERベンチマークを用いて,ロボットタスクの具体化におけるLarge Language Modelsの有効性を評価することを目的とした。
Meta PartNRは、ランダム化された屋内キッチンシーン内で、シンプルな環境とロボットインタラクションを提供する。
ランダム化されたキッチンシーンには、2人のロボットエージェントが協力してタスクを解決するタスクが与えられる。
メタPartNER環境における複数のフロンティアモデルの評価を行った。
その結果,OpenAI O3-miniのような推論モデルは,PartinNRのロボット組込み環境での動作において,OpenAI GPT-4oやLlama 3のような非推論モデルよりも優れていた。
o3-miniは、集中型、分散化、完全な可観測性、部分的な可観測性構成でパフォーマンスが向上した。
これは、実施されたロボット開発のための、有望な研究の道を提供する。
関連論文リスト
- PointArena: Probing Multimodal Grounding Through Language-Guided Pointing [79.80132157576978]
ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
論文 参考訳(メタデータ) (2025-05-15T06:04:42Z) - M2R2: MulitModal Robotic Representation for Temporal Action Segmentation [9.64001633229156]
複数のTASモデルにまたがる学習機能の再利用を可能にする新しい事前学習戦略を導入する。
提案手法は,REASSEMBLEデータセット上での最先端性能を実現し,既存のロボットアクションセグメンテーションモデルよりも46.6%向上した。
論文 参考訳(メタデータ) (2025-04-25T19:36:17Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - D-RMGPT: Robot-assisted collaborative tasks driven by large multimodal models [0.0]
検出ロボット管理GPT(D-RMGPT)は,LMMに基づくロボット支援組立プランナである
マーカや以前のトレーニングを必要とせずに、経験の浅い演算子をアセンブリタスクで支援することができる。
組立成功率83%を達成し、未経験者の組立時間を手作業よりも33%削減する。
論文 参考訳(メタデータ) (2024-08-21T16:34:21Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。