論文の概要: Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress
- arxiv url: http://arxiv.org/abs/2509.24129v1
- Date: Sun, 28 Sep 2025 23:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.65151
- Title: Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress
- Title(参考訳): マッシュ、スプレッド、スライス!視覚空間の進歩を通して物体の状態を操作する学習
- Authors: Priyanka Mandikal, Jiaheng Hu, Shivin Dass, Sagnik Majumder, Roberto Martín-Martín, Kristen Grauman,
- Abstract要約: SPARTAは、オブジェクトの状態変化操作タスクのファミリーで最初に統合されたフレームワークである。
SPARTAは、空間的に進行するオブジェクト変化のセグメンテーションマップ、実行可能領域と変換可能領域を知覚する視覚的スキル、時間とともに漸進的な進歩を捉える高密度報酬を統合している。
SPARTAを現実のロボットで検証し、10種類の現実世界のオブジェクトにまたがる3つの課題について検討する。
- 参考スコア(独自算出の注目度): 53.723881111373736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most robot manipulation focuses on changing the kinematic state of objects: picking, placing, opening, or rotating them. However, a wide range of real-world manipulation tasks involve a different class of object state change--such as mashing, spreading, or slicing--where the object's physical and visual state evolve progressively without necessarily changing its position. We present SPARTA, the first unified framework for the family of object state change manipulation tasks. Our key insight is that these tasks share a common structural pattern: they involve spatially-progressing, object-centric changes that can be represented as regions transitioning from an actionable to a transformed state. Building on this insight, SPARTA integrates spatially progressing object change segmentation maps, a visual skill to perceive actionable vs. transformed regions for specific object state change tasks, to generate a) structured policy observations that strip away appearance variability, and b) dense rewards that capture incremental progress over time. These are leveraged in two SPARTA policy variants: reinforcement learning for fine-grained control without demonstrations or simulation; and greedy control for fast, lightweight deployment. We validate SPARTA on a real robot for three challenging tasks across 10 diverse real-world objects, achieving significant improvements in training time and accuracy over sparse rewards and visual goal-conditioned baselines. Our results highlight progress-aware visual representations as a versatile foundation for the broader family of object state manipulation tasks. Project website: https://vision.cs.utexas.edu/projects/sparta-robot
- Abstract(参考訳): ほとんどのロボット操作は、物体の運動状態(ピック、配置、開口、回転)を変えることに焦点を当てている。
しかし、現実世界の操作タスクには、マッシング、スプレッド、スライシングなど、異なる種類のオブジェクト状態が関係しており、オブジェクトの物理的状態と視覚的状態は、その位置を変更することなく、徐々に進化する。
SPARTAは、オブジェクトの状態変化操作タスクのファミリーで最初に統合されたフレームワークである。
私たちの重要な洞察は、これらのタスクは共通の構造パターンを共有しているということです。
この洞察に基づいて、SPARTAは空間的に進行するオブジェクト変化のセグメンテーションマップを統合する。
a)外見の変動を除去する構造化された政策観察、及び
b) 時間とともに漸進的な進歩を捉えた高額な報酬。
これらは2つのSPARTAポリシーの亜種として活用されている: デモやシミュレーションなしできめ細かな制御のための強化学習、高速で軽量な展開のための欲求制御である。
SPARTAを実際のロボット上で10種類の現実世界のオブジェクトにまたがる3つの課題に対して検証し、スパース報酬や視覚目標条件ベースラインよりもトレーニング時間と精度を大幅に向上させる。
本研究は,オブジェクト状態操作タスクの幅広いファミリーのための汎用基盤として,プログレッシブ・アウェア・ビジュアル・表現を強調した。
プロジェクトウェブサイト: https://vision.cs.utexas.edu/projects/sparta-robot
関連論文リスト
- SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。
目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。
本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文 参考訳(メタデータ) (2025-03-15T01:48:54Z) - M$^3$-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation [51.82272563578793]
本稿では,その視覚的特徴と潜在的な形態的・外見的変化に基づいて,現実世界の物体を分類するセグメンテーションにおける位相の概念を紹介する。
本稿では,オブジェクトの位相を理解するためのモデルの有効性を検証するために,新しいベンチマーク,Multi-Phase,Multi-Transition,Multi-Scenery Video Object (M$3$-VOS)を提案する。
論文 参考訳(メタデータ) (2024-12-18T12:50:11Z) - A Dataset and Framework for Learning State-invariant Object Representations [0.6577148087211809]
我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを付加する新しいデータセット、ObjectsWithStateChangeを提案する。
カリキュラム学習が果たす役割に関連するアブレーションは, 対象認識精度が7.9%向上し, 検索mAPが9.2%向上したことを示す。
論文 参考訳(メタデータ) (2024-04-09T17:17:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-11-15T18:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。