論文の概要: Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective
- arxiv url: http://arxiv.org/abs/2511.11478v2
- Date: Tue, 18 Nov 2025 01:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.682947
- Title: Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective
- Title(参考訳): ロボットマニピュレーションにおける記憶状態の進展を再考する:オブジェクト中心の視点
- Authors: Nhat Chung, Taisei Hanyu, Toan Nguyen, Huy Le, Frederick Bumgarner, Duy Minh Ho Nguyen, Khoa Vo, Kashu Yamazaki, Chase Rainwater, Tung Kieu, Anh Nguyen, Ngan Le,
- Abstract要約: 物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
- 参考スコア(独自算出の注目度): 16.541717037293278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As embodied agents operate in increasingly complex environments, the ability to perceive, track, and reason about individual object instances over time becomes essential, especially in tasks requiring sequenced interactions with visually similar objects. In these non-Markovian settings, key decision cues are often hidden in object-specific histories rather than the current scene. Without persistent memory of prior interactions (what has been interacted with, where it has been, or how it has changed) visuomotor policies may fail, repeat past actions, or overlook completed ones. To surface this challenge, we introduce LIBERO-Mem, a non-Markovian task suite for stress-testing robotic manipulation under object-level partial observability. It combines short- and long-horizon object tracking with temporally sequenced subgoals, requiring reasoning beyond the current frame. However, vision-language-action (VLA) models often struggle in such settings, with token scaling quickly becoming intractable even for tasks spanning just a few hundred frames. We propose Embodied-SlotSSM, a slot-centric VLA framework built for temporal scalability. It maintains spatio-temporally consistent slot identities and leverages them through two mechanisms: (1) slot-state-space modeling for reconstructing short-term history, and (2) a relational encoder to align the input tokens with action decoding. Together, these components enable temporally grounded, context-aware action prediction. Experiments show Embodied-SlotSSM's baseline performance on LIBERO-Mem and general tasks, offering a scalable solution for non-Markovian reasoning in object-centric robotic policies.
- Abstract(参考訳): エンボディエージェントはますます複雑な環境で機能するので、視覚的に類似したオブジェクトとシーケンスされた相互作用を必要とするタスクにおいて、時間とともに個々のオブジェクトインスタンスを知覚し、追跡し、推論する能力は不可欠である。
これらの非マルコフ的な設定では、重要な決定の手がかりは、しばしば現在のシーンではなく、オブジェクト固有の歴史の中に隠される。
以前のインタラクションの永続的な記憶がなければ、ビジュモータポリシーは失敗したり、過去のアクションを繰り返したり、完了したものを見落としたりすることがある。
この課題を解決するために,物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
しかしながら、視覚言語アクション(VLA)モデルはそのような設定でしばしば苦労し、数百フレームのタスクであってもトークンのスケーリングは急速に難航する。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
1)短期履歴を再構築するためのスロット状態空間モデリングと,(2)入力トークンをアクションデコードに整合させるリレーショナルエンコーダである。
これらのコンポーネントは同時に、時間的に基礎付けられたコンテキスト対応のアクション予測を可能にする。
実験では、Embodied-SlotSSMのLIBERO-Memおよび一般的なタスクにおけるベースラインのパフォーマンスを示し、オブジェクト指向ロボットポリシーにおける非マルコフ推論のためのスケーラブルなソリューションを提供する。
関連論文リスト
- SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation [15.877350929231158]
我々は、より構造化され、効率的で、説明可能なビジュモータ制御のための経路として、オブジェクトリレーション中心の表現について研究する。
まず,ロボット操作におけるオブジェクト関係推論の実現と評価を目的とした,詳細なベンチマークデータセットであるLIBERO+を紹介する。
次に,SlotVLAを提案する。SlotVLAは,オブジェクトと動作復号化の関係をキャプチャするスロットアテンションベースのフレームワークである。
論文 参考訳(メタデータ) (2025-11-10T06:33:44Z) - rt-RISeg: Real-Time Model-Free Robot Interactive Segmentation for Active Instance-Level Object Understanding [7.264443471771696]
本稿では,ロボット同士の相互作用によって見えない物体を連続的に分割する,新しいリアルタイム対話型知覚フレームワークrt-RISegを提案する。
ランダムにサンプリングされた物体フレームの相対的な回転速度と線形速度は,ロボット同士の相互作用によって,学習されたセグメンテーションモデルなしで物体を識別できることを示す。
本稿では,従来のUOIS法よりも平均物体分割精度を27.5%向上させることにより,対話的知覚法の有効性を示す。
論文 参考訳(メタデータ) (2025-07-14T20:02:52Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。