Fugu-MT 論文翻訳(概要): LaNMP: A Language-Conditioned Mobile Manipulation Benchmark for Autonomous Robots

論文の概要: LaNMP: A Language-Conditioned Mobile Manipulation Benchmark for Autonomous Robots

arxiv url: http://arxiv.org/abs/2412.05313v1
Date: Thu, 28 Nov 2024 19:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 16:39:32.55505
Title: LaNMP: A Language-Conditioned Mobile Manipulation Benchmark for Autonomous Robots
Title（参考訳）: LaNMP: 自律型ロボットのための言語記述型モバイル操作ベンチマーク
Authors: Ahmed Jaafar, Shreyas Sundara Raman, Yichen Wei, Sofia Juliani, Anneke Wernerfelt, Benedict Quartey, Ifrah Idrees, Jason Xinyu Liu, Stefanie Tellex,
Abstract要約: 本稿ではLanguage, Navigation, Manipulation, Perception (LaNMP)データセットを提案する。 LaNMPは、自然言語で指定された長時間の部屋と部屋のピック・アンド・プレイスタスクのための574のトラジェクトリから構成される。シミュレーションで2つのモデルを微調整してテストし、物理ロボットで3分の1の評価を行い、ベンチマークが開発・評価に有効であることを実証した。
参考スコア（独自算出の注目度）: 12.297949111235699
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As robots that follow natural language become more capable and prevalent, we need a benchmark to holistically develop and evaluate their ability to solve long-horizon mobile manipulation tasks in large, diverse environments. To tackle this challenge, robots must use visual and language understanding, navigation, and manipulation capabilities. Existing datasets do not integrate all these aspects, restricting their efficacy as benchmarks. To address this gap, we present the Language, Navigation, Manipulation, Perception (LaNMP, pronounced Lamp) dataset and demonstrate the benefits of integrating these four capabilities and various modalities. LaNMP comprises 574 trajectories across eight simulated and real-world environments for long-horizon room-to-room pick-and-place tasks specified by natural language. Every trajectory consists of over 20 attributes, including RGB-D images, segmentations, and the poses of the robot body, end-effector, and grasped objects. We fine-tuned and tested two models in simulation, and evaluated a third on a physical robot, to demonstrate the benchmark's applicability in development and evaluation, as well as making models more sample efficient. The models performed suboptimally compared to humans; however, showed promise in increasing model sample efficiency, indicating significant room for developing more sample efficient multimodal mobile manipulation models using our benchmark.
Abstract（参考訳）: 自然言語に追従するロボットがより有能になり、普及するにつれて、大規模で多様な環境において、長期にわたる移動操作タスクを解く能力の全体的開発と評価を行うためのベンチマークが必要である。この課題に取り組むには、ロボットは視覚的および言語理解、ナビゲーション、操作機能を使用する必要がある。既存のデータセットはこれらのすべての側面を統合しておらず、ベンチマークとしての有効性を制限する。このギャップに対処するために、Language, Navigation, Manipulation, Perception (LaNMP, 発音Lamp)データセットを示し、これらの4つの機能と様々なモダリティを統合する利点を実証する。 LaNMPは8つのシミュレーションおよび実世界の環境にまたがる574の軌道から構成される。すべての軌道は、RGB-D画像、セグメンテーション、ロボット本体、エンドエフェクター、把握された物体のポーズを含む20以上の属性で構成されている。シミュレーションで2つのモデルを微調整してテストし、物理ロボットで3分の1の評価を行い、ベンチマークが開発と評価に適用可能であることを実証した。しかし, モデルサンプル効率の向上は有望であり, より効率的なマルチモーダル移動操作モデルを開発する余地が示唆された。

関連論文リスト

Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文参考訳（メタデータ） (2025-07-17T03:08:26Z)
SSSUMO: Real-Time Semi-Supervised Submovement Decomposition [0.6499759302108926]
運動分析は、運動制御に関する貴重な洞察を提供する。既存の手法は、復元精度、計算コスト、検証に苦慮している。半教師付き学習フレームワークを用いて,これらの課題に対処する。
論文参考訳（メタデータ） (2025-07-08T21:26:25Z)
Smooth-Distill: A Self-distillation Framework for Multitask Learning with Wearable Sensor Data [0.0]
本稿では,人間の活動認識(HAR)とセンサ配置検出を同時に行うように設計された,新しい自己蒸留フレームワークであるSmooth-Distillを紹介する。従来の蒸留法とは異なり, 提案手法では, モデル自体のスムーズな歴史バージョンを教師として利用している。実験結果から,Smooth-Distill は異なる評価シナリオにおける代替手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-27T06:51:51Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environments (EMMOE) を導入する。 EMMOEは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合する。さらに,DPO(Direct Optimization Preference)と軽量ナビゲーションおよび操作モデル,複数エラー検出機構を備えた高度なエージェントシステムであるHomieBotを設計した。
論文参考訳（メタデータ） (2025-03-11T16:42:36Z)
A Dynamic and High-Precision Method for Scenario-Based HRA Synthetic Data Collection in Multi-Agent Collaborative Environments Driven by LLMs [2.50572897318757]
本研究では,細調整された大規模言語モデル(LLM)を活用した,新たなシナリオ駆動型ワークロード推定手法を提案する。この方法はオペレータのワークロードの変化に動的に適応し、より正確でフレキシブルでスケーラブルなワークロード推定を提供する。
論文参考訳（メタデータ） (2025-01-16T09:23:48Z)
Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本稿では,ロボット操作支援のためのフレームワークを提案する。第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文参考訳（メタデータ） (2024-09-02T09:11:28Z)
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文参考訳（メタデータ） (2024-05-12T15:38:17Z)
Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文参考訳（メタデータ） (2024-04-02T13:25:16Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion [20.545058017790428]
模倣学習は、エンボディエージェントでアジャイルの移動を可能にするための大きな約束を持っています。本稿では,ILアルゴリズムの厳密な評価と比較を容易にするための新しいベンチマークを提案する。このベンチマークは四足歩行、二足歩行、筋骨格人体モデルを含む多様な環境を含む。
論文参考訳（メタデータ） (2023-11-04T19:41:50Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文参考訳（メタデータ） (2023-06-09T18:40:55Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)
Can Deep Learning be Applied to Model-Based Multi-Object Tracking? [25.464269324261636]
マルチオブジェクトトラッキング(MOT)は、ノイズ測定を用いて未知の、時間変化のあるオブジェクトの状態をトラッキングする問題である。ディープラーニング(DL)は、トラッキングパフォーマンスを改善するために、MOTでますます使われている。本稿では,TransformerベースのDLトラッカーを提案し,その性能をモデルベースで評価する。
論文参考訳（メタデータ） (2022-02-16T07:43:08Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文参考訳（メタデータ） (2021-03-17T15:24:02Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)
BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文参考訳（メタデータ） (2020-08-11T17:04:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。