論文の概要: SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.06754v1
- Date: Mon, 10 Nov 2025 06:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.111405
- Title: SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation
- Title(参考訳): SlotVLA:ロボットマニピュレーションにおけるオブジェクト関係表現のモデリングを目指して
- Authors: Taisei Hanyu, Nhat Chung, Huy Le, Toan Nguyen, Yuki Ikebe, Anthony Gunderman, Duy Nguyen Ho Minh, Khoa Vo, Tung Kieu, Kashu Yamazaki, Chase Rainwater, Anh Nguyen, Ngan Le,
- Abstract要約: 我々は、より構造化され、効率的で、説明可能なビジュモータ制御のための経路として、オブジェクトリレーション中心の表現について研究する。
まず,ロボット操作におけるオブジェクト関係推論の実現と評価を目的とした,詳細なベンチマークデータセットであるLIBERO+を紹介する。
次に,SlotVLAを提案する。SlotVLAは,オブジェクトと動作復号化の関係をキャプチャするスロットアテンションベースのフレームワークである。
- 参考スコア(独自算出の注目度): 15.877350929231158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by how humans reason over discrete objects and their relationships, we explore whether compact object-centric and object-relation representations can form a foundation for multitask robotic manipulation. Most existing robotic multitask models rely on dense embeddings that entangle both object and background cues, raising concerns about both efficiency and interpretability. In contrast, we study object-relation-centric representations as a pathway to more structured, efficient, and explainable visuomotor control. Our contributions are two-fold. First, we introduce LIBERO+, a fine-grained benchmark dataset designed to enable and evaluate object-relation reasoning in robotic manipulation. Unlike prior datasets, LIBERO+ provides object-centric annotations that enrich demonstrations with box- and mask-level labels as well as instance-level temporal tracking, supporting compact and interpretable visuomotor representations. Second, we propose SlotVLA, a slot-attention-based framework that captures both objects and their relations for action decoding. It uses a slot-based visual tokenizer to maintain consistent temporal object representations, a relation-centric decoder to produce task-relevant embeddings, and an LLM-driven module that translates these embeddings into executable actions. Experiments on LIBERO+ demonstrate that object-centric slot and object-relation slot representations drastically reduce the number of required visual tokens, while providing competitive generalization. Together, LIBERO+ and SlotVLA provide a compact, interpretable, and effective foundation for advancing object-relation-centric robotic manipulation.
- Abstract(参考訳): 人間が個々の物体とその関係をどう考えるかに触発され、コンパクトな物体中心表現とオブジェクト関係表現がマルチタスクロボット操作の基礎となるかどうかを探求する。
既存のロボットマルチタスクモデルの多くは、物体と背景の両方を絡ませる密着した埋め込みに依存しており、効率性と解釈可能性の両方に関する懸念を提起している。
対照的に、より構造化され、効率的で、説明可能なビジュモータ制御のための経路として、オブジェクト-リレーション中心の表現について検討する。
私たちの貢献は2倍です。
まず,ロボット操作におけるオブジェクト関係推論の実現と評価を目的とした,詳細なベンチマークデータセットであるLIBERO+を紹介する。
従来のデータセットとは異なり、LIBERO+はオブジェクト中心のアノテーションを提供し、ボックスレベルのラベルとマスクレベルのラベル、インスタンスレベルの時間トラッキング、コンパクトで解釈可能なビズモータ表現をサポートする。
次に,SlotVLAを提案する。SlotVLAは,オブジェクトと動作復号化の関係をキャプチャするスロットアテンションベースのフレームワークである。
これは、一貫した時間オブジェクト表現を維持するためにスロットベースのビジュアルトークンライザ、タスク関連埋め込みを生成するリレーショナル中心のデコーダ、これらの埋め込みを実行可能なアクションに変換するLLM駆動モジュールを使用する。
LIBERO+の実験では、オブジェクト中心のスロットとオブジェクト関連スロットの表現が、競争的な一般化を提供しながら、要求される視覚トークンの数を劇的に減少させることを示した。
LIBERO+とSlotVLAは共に、オブジェクト関係中心のロボット操作を進めるためのコンパクトで解釈可能で効果的な基盤を提供する。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
スロット内のオブジェクトのセマンティクスを学習するニューラルスロットインタプリタ(NSI)を提案する。
バイモーダルなオブジェクトプロパティとシーン検索タスクによる実験は、NSIが学習した対応の基盤的有効性と解釈可能性を示す。
また、実世界のオブジェクト発見において、接地されたスロットが教師なしのスロットを超越し、シーンの複雑さとともにスケールすることが示される。
論文 参考訳(メタデータ) (2024-02-02T12:37:23Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。