Fugu-MT 論文翻訳(概要): Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

論文の概要: Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

arxiv url: http://arxiv.org/abs/2603.02511v1
Date: Tue, 03 Mar 2026 01:45:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.596856
Title: Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments
Title（参考訳）: クラッタ環境における逐次操作のための物体中心空間推論の学習
Authors: Chrisantus Eze, Ryan C Julian, Christopher Crick,
Abstract要約: 我々は,低レベルの行動実行から高レベルの空間的推論を分離するフレームワークUnveilerを提案する。この分離されたアーキテクチャは、パラメータ数と推論時間の観点からより計算的に効率的であることを示す。シミュレーションでは,97.6%の成功率,90.0%の完全閉塞シナリオを達成し,複雑な操作タスクにおけるオブジェクト中心推論の能力について考察した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robotic manipulation in cluttered environments presents a critical challenge for automation. Recent large-scale, end-to-end models demonstrate impressive capabilities but often lack the data efficiency and modularity required for retrieving objects in dense clutter. In this work, we argue for a paradigm of specialized, decoupled systems and present Unveiler, a framework that explicitly separates high-level spatial reasoning from low-level action execution. Unveiler's core is a lightweight, transformer-based Spatial Relationship Encoder (SRE) that sequentially identifies the most critical obstacle for removal. This discrete decision is then passed to a rotation-invariant Action Decoder for execution. We demonstrate that this decoupled architecture is not only more computationally efficient in terms of parameter count and inference time, but also significantly outperforms both classic end-to-end policies and modern, large-model-based baselines in retrieving targets from dense clutter. The SRE is trained in two stages: imitation learning from heuristic demonstrations provides sample-efficient initialization, after which PPO fine-tuning enables the policy to discover removal strategies that surpass the heuristic in dense clutter. Our results, achieving up to 97.6\% success in partially occluded and 90.0\% in fully occluded scenarios in simulation, make a case for the power of specialized, object-centric reasoning in complex manipulation tasks. Additionally, we demonstrate that the SRE's spatial reasoning transfers zero-shot to real scenes, and validate the full system on a physical robot requiring only geometric workspace calibration; no learned components are retrained.
Abstract（参考訳）: 散らかった環境におけるロボット操作は、自動化にとって重要な課題である。最近の大規模でエンドツーエンドのモデルは印象的な機能を示しているが、密集した乱雑なオブジェクトを取得するのに必要なデータ効率とモジュラリティを欠いていることが多い。本研究では,高度空間推論を低レベル動作実行から明確に分離するフレームワークであるUnveilerについて論じる。 Unveilerのコアは軽量でトランスフォーマーベースの空間関係エンコーダ(SRE)で、削除の最も重要な障害を順次特定する。この決定は、実行のために回転不変のAction Decoderに渡される。この分離されたアーキテクチャは、パラメータ数と推論時間の観点から計算効率が良いだけでなく、古典的なエンドツーエンドポリシーと、高密度なクラッタからターゲットを抽出する上で、最新の大規模モデルベースラインの両方を著しく上回っていることを実証する。 SREは2つの段階で訓練される: ヒューリスティックなデモンストレーションからの模倣学習はサンプル効率の良い初期化を提供する。シミュレーションでは, 部分閉塞時の97.6\%, 完全閉塞時の90.0\%を達成し, 複雑な操作作業において, 対象中心の専門的推論の力について考察した。さらに、SREの空間推論はゼロショットを実シーンに転送し、幾何学的ワークスペース校正のみを必要とする物理ロボット上で全システムを検証する。

関連論文リスト

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。 TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。 TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文参考訳（メタデータ） (2026-03-02T10:38:54Z)
Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文参考訳（メタデータ） (2026-02-23T00:33:38Z)
TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search [11.893855231479717]
Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。中国最大のeコマースプラットフォームに配備されている。
論文参考訳（メタデータ） (2025-11-17T20:16:52Z)
URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
Purifying Task Vectors in Knowledge-Aware Subspace for Model Merging [83.5273168208788]
モデルマージは、個別に調整されたモデルのタスク固有の能力を、余分なトレーニングなしで単一のモデルに統合することを目的としている。統合モデルは、タスクベクトルのタスク非関連冗長性に起因する競合により、しばしば顕著なパフォーマンス劣化に悩まされる。本稿では,これらの課題を克服するために,知識対応サブ空間におけるTAsk Vectors (PAVE) の純粋化を提案する。
論文参考訳（メタデータ） (2025-10-16T14:02:57Z)
Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation [13.83897333268682]
宇宙船のポース推定は、ランデブー、ドッキング、軌道上のドッキングのような自律的な宇宙活動の基本的な能力である。既存のドメイン適応アプローチは、この問題を軽減することを目的としているが、ラベル付きターゲットサンプルの少ない数が利用できる場合、しばしば性能が低下する。本稿では,SPEキーポイント回帰に適したSDA(Supervised Domain Adaptation)フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-17T08:03:05Z)
AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。 RoboTwinベンチマークの平均成功率は98.7%に達する。
論文参考訳（メタデータ） (2025-06-24T03:03:26Z)
Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。 eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文参考訳（メタデータ） (2025-06-16T17:38:36Z)
Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文参考訳（メタデータ） (2023-10-26T21:28:23Z)
Efficient and Robust Training of Dense Object Nets for Multi-Object Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。本研究は,多目的データを用いた学習に重点を置いている。実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文参考訳（メタデータ） (2022-06-24T08:24:42Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文参考訳（メタデータ） (2021-01-07T07:33:38Z)
ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。メモリフレンドリーだが、計算コストも低い。 RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-23T06:34:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。