論文の概要: MARS: Multimodal Active Robotic Sensing for Articulated Characterization
- arxiv url: http://arxiv.org/abs/2407.01191v1
- Date: Mon, 1 Jul 2024 11:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:49:58.246628
- Title: MARS: Multimodal Active Robotic Sensing for Articulated Characterization
- Title(参考訳): MARS:マルチモーダルアクティブロボットセンシング
- Authors: Hongliang Zeng, Ping Zhang, Chengjiong Wu, Jiahua Wang, Tingyu Ye, Fang Li,
- Abstract要約: 我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダルフュージョンモジュールを備えている。
本手法は,実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
- 参考スコア(独自算出の注目度): 6.69660410213287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Precise perception of articulated objects is vital for empowering service robots. Recent studies mainly focus on point cloud, a single-modal approach, often neglecting vital texture and lighting details and assuming ideal conditions like optimal viewpoints, unrepresentative of real-world scenarios. To address these limitations, we introduce MARS, a novel framework for articulated object characterization. It features a multi-modal fusion module utilizing multi-scale RGB features to enhance point cloud features, coupled with reinforcement learning-based active sensing for autonomous optimization of observation viewpoints. In experiments conducted with various articulated object instances from the PartNet-Mobility dataset, our method outperformed current state-of-the-art methods in joint parameter estimation accuracy. Additionally, through active sensing, MARS further reduces errors, demonstrating enhanced efficiency in handling suboptimal viewpoints. Furthermore, our method effectively generalizes to real-world articulated objects, enhancing robot interactions. Code is available at https://github.com/robhlzeng/MARS.
- Abstract(参考訳): 明瞭な物体の正確な認識は、サービスロボットの強化に不可欠である。
最近の研究は主にポイントクラウド(単一モードのアプローチ)に焦点を当てており、しばしば重要なテクスチャや照明の詳細を無視し、最適な視点や現実のシナリオを表現できないような理想的な条件を仮定している。
これらの制約に対処するため,我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークであるMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダル融合モジュールと、観測視点の自律的最適化のための強化学習ベースのアクティブセンシングを備える。
また,PartNet-Mobilityデータセットから得られた各種オブジェクトインスタンスを用いた実験では,関節パラメータ推定精度において,最先端の手法よりも優れていた。
さらに、アクティブセンシングにより、MARSはエラーをさらに減らし、最適化された視点を扱う際の効率を向上する。
さらに,本手法は実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
コードはhttps://github.com/robhlzeng/MARSで入手できる。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Moving Object Segmentation in Point Cloud Data using Hidden Markov Models [0.0]
我々は,移動物体を点クラウドデータにセグメント化するための頑健な学習自由アプローチを提案する。
提案手法はベンチマークデータセット上でテストされ、最先端の手法よりも一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-24T10:56:02Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - Smart Explorer: Recognizing Objects in Dense Clutter via Interactive
Exploration [31.38518623440405]
密集した物体を正確に認識することは、様々なロボット操作タスクにおいて重要な役割を担っている。
本稿では,高密度なオブジェクトを認識できるSmart Explorerという対話型探索フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-06T11:04:04Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Improving Object Permanence using Agent Actions and Reasoning [8.847502932609737]
既存のアプローチは、低レベルの知覚からオブジェクト永続性を学ぶ。
我々は、ロボットが実行された動作に関する知識を使用する場合、オブジェクトの永続性を改善することができると論じる。
論文 参考訳(メタデータ) (2021-10-01T07:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。