論文の概要: Toward Accurate Long-Horizon Robotic Manipulation: Language-to-Action with Foundation Models via Scene Graphs
- arxiv url: http://arxiv.org/abs/2510.27558v1
- Date: Fri, 31 Oct 2025 15:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.153769
- Title: Toward Accurate Long-Horizon Robotic Manipulation: Language-to-Action with Foundation Models via Scene Graphs
- Title(参考訳): ロボットマニピュレーションの高精度化に向けて--シーングラフによる基礎モデルを用いた言語間相互作用
- Authors: Sushil Samuel Dinesh, Shinkyu Park,
- Abstract要約: このフレームワークは、市販のモデルと、堅牢なタスクシークエンシングが可能な汎用推論モデルを統合する。
フレームワーク内で動的に維持されるシーングラフは、空間的認識を提供し、環境に関する一貫した推論を可能にする。
- 参考スコア(独自算出の注目度): 1.2246649738388389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a framework that leverages pre-trained foundation models for robotic manipulation without domain-specific training. The framework integrates off-the-shelf models, combining multimodal perception from foundation models with a general-purpose reasoning model capable of robust task sequencing. Scene graphs, dynamically maintained within the framework, provide spatial awareness and enable consistent reasoning about the environment. The framework is evaluated through a series of tabletop robotic manipulation experiments, and the results highlight its potential for building robotic manipulation systems directly on top of off-the-shelf foundation models.
- Abstract(参考訳): 本稿では,ドメイン固有のトレーニングを使わずに,事前学習した基礎モデルをロボット操作に活用するフレームワークを提案する。
このフレームワークはオフザシェルフモデルを統合し、基礎モデルからのマルチモーダル認識と、堅牢なタスクシーケンシングが可能な汎用推論モデルを組み合わせる。
フレームワーク内で動的に維持されるシーングラフは、空間的認識を提供し、環境に関する一貫した推論を可能にする。
このフレームワークは、一連のテーブルトップロボット操作実験を通じて評価され、その結果は、既製の基礎モデルの上にロボット操作システムを直接構築する可能性を強調している。
関連論文リスト
- Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Leveraging Foundation Models for Enhancing Robot Perception and Action [0.0]
この論文は、基礎モデルを体系的に活用してロボットの能力を高める方法について考察する。
この研究は4つの中核的な調査線を中心に構成されており、それぞれがロボティクスにおける根本的な課題に対処している。
論文 参考訳(メタデータ) (2025-10-30T15:40:47Z) - A Compositional Paradigm for Foundation Models: Towards Smarter Robotic Agents [3.5315128335063286]
ファンデーションモデルは大量のデータを処理でき、リッチな表現を抽出して開発することができる。
しかしながら、スクラッチからモデル全体をトレーニングすることなく、動的で現実的なシナリオに適応することにはまだ問題があります。
我々は、より柔軟で効率的でスマートなAIソリューションの開発を促進するために、継続的な学習と構成原則の適用を提案する。
論文 参考訳(メタデータ) (2025-10-21T13:06:52Z) - Constrained Decoding for Robotics Foundation Models [12.916330118607918]
本稿では,自動回帰ロボット基盤モデルのための制約付き復号化フレームワークであるSafeDecを紹介する。
タスク固有の安全ルールはSignal Temporal Logic (STL) 公式として表現され、最小限のオーバーヘッドで推論時に強制される。
提案手法は,実行時に仮定された動的条件下でのSTL仕様を,再トレーニングなしで確実に満たすものである。
論文 参考訳(メタデータ) (2025-09-01T19:17:40Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Scan, Materialize, Simulate: A Generalizable Framework for Physically Grounded Robot Planning [16.193477346643295]
Scan, Materialize, Simulate (SMS) は,正確なシーン再構成のための3次元ガウススプラッティング,セマンティックセグメンテーションのための視覚基盤モデル,物質特性推定のための視覚言語モデル,アクション結果の信頼性予測のための物理シミュレーションを組み合わせた統合フレームワークである。
本研究は,シーン再構築のための異種レンダリング,セマンティック理解のための基礎モデル,物理に基づくシミュレーションにより,多様な環境にまたがる物理的基盤を持つロボット計画を実現する可能性を強調した。
論文 参考訳(メタデータ) (2025-05-20T21:55:01Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation [58.615616224739654]
従来のロボット操作法は通常、予測のための観察の意味表現を学ぶ。
マルチ時間ロボット操作のための動的ガウス分割法ManiGaussianを提案する。
我々のフレームワークは、最先端の手法を平均的な成功率で13.1%上回ることができる。
論文 参考訳(メタデータ) (2024-03-13T08:06:41Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。