論文の概要: rt-RISeg: Real-Time Model-Free Robot Interactive Segmentation for Active Instance-Level Object Understanding
- arxiv url: http://arxiv.org/abs/2507.10776v1
- Date: Mon, 14 Jul 2025 20:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.873081
- Title: rt-RISeg: Real-Time Model-Free Robot Interactive Segmentation for Active Instance-Level Object Understanding
- Title(参考訳): rt-RISeg:アクティブインスタンスレベルオブジェクト理解のためのリアルタイムモデルフリーロボット対話型セグメンテーション
- Authors: Howard H. Qian, Yiting Chen, Gaotian Wang, Podshara Chanrungmaneekul, Kaiyu Hang,
- Abstract要約: 本稿では,ロボット同士の相互作用によって見えない物体を連続的に分割する,新しいリアルタイム対話型知覚フレームワークrt-RISegを提案する。
ランダムにサンプリングされた物体フレームの相対的な回転速度と線形速度は,ロボット同士の相互作用によって,学習されたセグメンテーションモデルなしで物体を識別できることを示す。
本稿では,従来のUOIS法よりも平均物体分割精度を27.5%向上させることにより,対話的知覚法の有効性を示す。
- 参考スコア(独自算出の注目度): 7.264443471771696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successful execution of dexterous robotic manipulation tasks in new environments, such as grasping, depends on the ability to proficiently segment unseen objects from the background and other objects. Previous works in unseen object instance segmentation (UOIS) train models on large-scale datasets, which often leads to overfitting on static visual features. This dependency results in poor generalization performance when confronted with out-of-distribution scenarios. To address this limitation, we rethink the task of UOIS based on the principle that vision is inherently interactive and occurs over time. We propose a novel real-time interactive perception framework, rt-RISeg, that continuously segments unseen objects by robot interactions and analysis of a designed body frame-invariant feature (BFIF). We demonstrate that the relative rotational and linear velocities of randomly sampled body frames, resulting from selected robot interactions, can be used to identify objects without any learned segmentation model. This fully self-contained segmentation pipeline generates and updates object segmentation masks throughout each robot interaction without the need to wait for an action to finish. We showcase the effectiveness of our proposed interactive perception method by achieving an average object segmentation accuracy rate 27.5% greater than state-of-the-art UOIS methods. Furthermore, although rt-RISeg is a standalone framework, we show that the autonomously generated segmentation masks can be used as prompts to vision foundation models for significantly improved performance.
- Abstract(参考訳): つかみなどの新しい環境における器用なロボット操作タスクの正常実行は、背景や他の物体から見えない物体を巧みに分割する能力に依存する。
既存のオブジェクトインスタンスセグメンテーション(UOIS)では、大規模なデータセット上でモデルをトレーニングし、多くの場合、静的な視覚的特徴に過度に適合する。
この依存関係は、アウト・オブ・ディストリビューションシナリオに直面すると、一般化性能が低下する。
この制限に対処するため、視覚は本質的にインタラクティブであり、時間とともに起こるという原則に基づいて、UOISの課題を再考する。
本稿では,ロボットのインタラクションと設計したボディーフレーム不変機能(BFIF)の分析により,見えない物体を連続的にセグメント化する,新しいリアルタイム対話型知覚フレームワークrt-RISegを提案する。
ランダムにサンプリングされた物体フレームの相対的な回転速度と線形速度は,ロボット同士の相互作用によって,学習されたセグメンテーションモデルなしで物体を識別できることを示す。
完全に自己完結したセグメンテーションパイプラインは、アクションが完了するのを待つことなく、各ロボットのインタラクション全体でオブジェクトセグメンテーションマスクを生成し、更新する。
本稿では,従来のUOIS法よりも平均物体分割精度を27.5%向上させることにより,対話的知覚法の有効性を示す。
さらに、rt-RISegはスタンドアロンのフレームワークであるが、自律的に生成されたセグメンテーションマスクは、ファンデーションモデルに対するプロンプトとして利用でき、性能が大幅に向上することを示す。
関連論文リスト
- You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping [119.41166438439313]
YOEOは、エンドツーエンドでインスタンスセグメンテーションとNPCS表現を出力する単一ステージのメソッドである。
我々は、統一ネットワークを使用してポイントワイズセマンティックラベルとセントロイドオフセットを生成し、同じパートインスタンスのポイントが同じセントロイドに投票できるようにする。
また,合成学習したモデルを実環境に展開し,200Hzでリアルタイムな視覚フィードバックを提供する。
論文 参考訳(メタデータ) (2025-06-06T03:49:20Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications [0.7951977175758216]
従来のRGB-D処理パイプラインは主に幾何学的再構成に焦点を当てている。
セマンティックセグメンテーション、ヒューマントラッキング、ポイントクラウド融合、シーン再構築を統合した、新しいエンドツーエンドのモジュールパイプラインを導入する。
我々は、ベンチマークデータセットと現実世界のKinect RGB-Dデータにアプローチを検証し、効率、精度、ユーザビリティを改善した。
論文 参考訳(メタデータ) (2024-10-23T16:01:31Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Self-Supervised Unseen Object Instance Segmentation via Long-Term Robot
Interaction [23.572104156617844]
本研究では,オブジェクトとの長期的なインタラクションを活用することで,オブジェクトのインスタンス分割を現実の世界で改善するための新しいロボットシステムを提案する。
本システムは,ロボットのプッシュ動作の後,オブジェクトのセグメント化の決定に反する。
システムによって収集された実世界データを用いて合成データに基づいて訓練されたセグメンテーションネットワークを微調整することで,システムの有用性を実証する。
論文 参考訳(メタデータ) (2023-02-07T23:11:29Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Instance Segmentation of Visible and Occluded Regions for Finding and
Picking Target from a Pile of Objects [25.836334764387498]
本研究では,対象物体の発見・把握が可能な物体の山から対象物を選択するロボットシステムを提案する。
既存のインスタンスセグメンテーションモデルを新しいリルックアーキテクチャで拡張し、モデルがインスタンス間の関係を明示的に学習する。
また、画像合成により、人間のアノテーションを使わずに新しいオブジェクトを処理できるシステムを構築する。
論文 参考訳(メタデータ) (2020-01-21T12:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。