論文の概要: Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies
- arxiv url: http://arxiv.org/abs/2602.11885v1
- Date: Thu, 12 Feb 2026 12:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.393207
- Title: Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies
- Title(参考訳): あらゆるものを操作するための学習 - バウンディングボックスガイドによるデータスケーリング法則の探求
- Authors: Yihao Wu, Jinming Ma, Junbo Tan, Yanzhao Yu, Shoujie Li, Mingliang Zhou, Diyun Xiang, Xueqian Wang,
- Abstract要約: 拡散に基づくポリシーは意味操作における限定的な一般化を示す。
本稿では,対象オブジェクトを直接指定するためのバウンディングボックス命令を活用することを提案する。
本稿では,オブジェクト検出とバウンディングボックス誘導拡散ポリシを統合したセマンティック・モーション・デカップリング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.654568478379307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based policies show limited generalization in semantic manipulation, posing a key obstacle to the deployment of real-world robots. This limitation arises because relying solely on text instructions is inadequate to direct the policy's attention toward the target object in complex and dynamic environments. To solve this problem, we propose leveraging bounding-box instruction to directly specify target object, and further investigate whether data scaling laws exist in semantic manipulation tasks. Specifically, we design a handheld segmentation device with an automated annotation pipeline, Label-UMI, which enables the efficient collection of demonstration data with semantic labels. We further propose a semantic-motion-decoupled framework that integrates object detection and bounding-box guided diffusion policy to improve generalization and adaptability in semantic manipulation. Throughout extensive real-world experiments on large-scale datasets, we validate the effectiveness of the approach, and reveal a power-law relationship between generalization performance and the number of bounding-box objects. Finally, we summarize an effective data collection strategy for semantic manipulation, which can achieve 85\% success rates across four tasks on both seen and unseen objects. All datasets and code will be released to the community.
- Abstract(参考訳): 拡散に基づくポリシーは、セマンティック操作において限定的な一般化を示し、現実世界のロボットの展開に重要な障害となる。
この制限は、複雑な動的環境下でターゲットオブジェクトにポリシーの注意を向けるのに、テキスト命令のみに依存するのが不十分であるために生じる。
そこで本研究では,対象オブジェクトを直接指定するためのバウンディングボックス命令を活用することを提案し,セマンティックな操作タスクにデータスケーリング法則が存在するかどうかをさらに検討する。
具体的には,自動アノテーションパイプラインを備えたハンドヘルドセグメンテーションデバイスであるLabel-UMIを設計し,セマンティックラベルを用いた効率的なデモデータの収集を可能にする。
さらに、オブジェクト検出とバウンディングボックス誘導拡散ポリシーを統合し、セマンティックな操作における一般化と適応性を改善するセマンティック・モーション・デカップリング・フレームワークを提案する。
大規模データセットに関する大規模な実世界実験を通じて,本手法の有効性を検証し,一般化性能とバウンディングボックスオブジェクト数との関係を明らかにする。
最後に、セマンティックな操作のための効果的なデータ収集戦略を要約し、目に見えないオブジェクトと見えないオブジェクトの両方で4つのタスクで85%の成功率を達成する。
すべてのデータセットとコードはコミュニティにリリースされます。
関連論文リスト
- Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation [14.977743061489518]
我々は,汎用デキスタラス操作のための新しいデータ効率のアプローチであるObject-Focus Actor (OFA)を紹介する。
OFAは、厳密な操作タスクで観測される一貫した終端軌道を利用して、効率的なポリシートレーニングを可能にする。
OFAは10のデモで堅牢なパフォーマンスを実現し、そのデータ効率を強調している。
論文 参考訳(メタデータ) (2025-05-21T04:37:56Z) - EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation [30.93060152004132]
高次元観測から物体を操作することを学ぶことは重要な課題である。
最近のアプローチでは、大規模なオフラインデータを使用して、ピクセル観測からモデルをトレーニングしている。
本稿では、オブジェクト中心の表現とエンティティ中心のトランスフォーマーを活用する新しい行動クローニング(BC)手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T13:50:15Z) - Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。