論文の概要: STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.20381v1
- Date: Wed, 28 Jan 2026 08:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.976262
- Title: STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation
- Title(参考訳): STORM:ロボットマニピュレーションのためのスロットベースタスク認識型オブジェクト中心表現
- Authors: Alexandre Chapin, Emmanuel Dellandréa, Liming Chen,
- Abstract要約: STORMは軽量なオブジェクト中心適応モジュールで、ロボット操作のためのセマンティック・アウェアスロットで凍結した視覚基盤モデルを拡張する。
オブジェクト中心のスロットは、言語埋め込みを使った視覚-セマンティック事前訓練によって安定化され、下流操作ポリシーと共同で適応される。
実験によると、STORMは、凍結基盤モデル機能を直接使用したり、エンドツーエンドにオブジェクト中心の表現をトレーニングするよりも、視覚的障害への一般化を改善し、パフォーマンスを制御する。
- 参考スコア(独自算出の注目度): 44.055446967139424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.
- Abstract(参考訳): ビジュアルファウンデーションモデルはロボティクスに強力な知覚機能を提供しますが、その密度の高い表現には明示的なオブジェクトレベルの構造がなく、操作タスクの堅牢性と収縮性が制限されています。
ロボット操作のための小さな意味認識スロットで凍結した視覚基盤モデルを拡張する軽量なオブジェクト中心適応モジュールSTORM(Slot-based Task-aware Object-centric Representation for Robot Manipulation)を提案する。
オブジェクト中心のスロットは、まず、言語埋め込みを使用した視覚-セマンティック事前トレーニングによって安定化され、その後、下流操作ポリシーに併用されます。
この段階的学習は、スロット形成の退化を防ぎ、タスク目標との認識を整合させながら意味的一貫性を維持する。
オブジェクト発見ベンチマークとシミュレートされた操作タスクの実験では、STORMは凍結基盤モデル機能を直接使用したり、オブジェクト中心の表現をエンドツーエンドにトレーニングするのと比較して、視覚的障害への一般化を改善し、パフォーマンスを制御する。
本研究は,汎用基盤モデルの特徴をロボット制御のためのタスク対応オブジェクト中心表現に変換するための効率的なメカニズムとして,多相適応に注目した。
関連論文リスト
- SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation [15.877350929231158]
我々は、より構造化され、効率的で、説明可能なビジュモータ制御のための経路として、オブジェクトリレーション中心の表現について研究する。
まず,ロボット操作におけるオブジェクト関係推論の実現と評価を目的とした,詳細なベンチマークデータセットであるLIBERO+を紹介する。
次に,SlotVLAを提案する。SlotVLAは,オブジェクトと動作復号化の関係をキャプチャするスロットアテンションベースのフレームワークである。
論文 参考訳(メタデータ) (2025-11-10T06:33:44Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Distributed Reinforcement Learning of Targeted Grasping with Active
Vision for Mobile Manipulators [4.317864702902075]
移動体マニピュレータのための最初のRLベースのシステムを提案する。これは、(a)対象対象物に対する目標把握の一般化を実現し、(b)隠蔽対象物による乱れたシーンの複雑な把握戦略を学習し、(c)可動式手首カメラでアクティブなビジョンを実行し、オブジェクトの発見をより良くする。
シミュレーション環境でシステムのトレーニングと評価を行い,性能向上,動作解析,実環境への移動といった重要なコンポーネントを特定した。
論文 参考訳(メタデータ) (2020-07-16T02:47:48Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。