論文の概要: MARS: Multimodal Active Robotic Sensing for Articulated Characterization
- arxiv url: http://arxiv.org/abs/2407.01191v1
- Date: Mon, 1 Jul 2024 11:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:49:58.246628
- Title: MARS: Multimodal Active Robotic Sensing for Articulated Characterization
- Title(参考訳): MARS:マルチモーダルアクティブロボットセンシング
- Authors: Hongliang Zeng, Ping Zhang, Chengjiong Wu, Jiahua Wang, Tingyu Ye, Fang Li,
- Abstract要約: 我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダルフュージョンモジュールを備えている。
本手法は,実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
- 参考スコア(独自算出の注目度): 6.69660410213287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Precise perception of articulated objects is vital for empowering service robots. Recent studies mainly focus on point cloud, a single-modal approach, often neglecting vital texture and lighting details and assuming ideal conditions like optimal viewpoints, unrepresentative of real-world scenarios. To address these limitations, we introduce MARS, a novel framework for articulated object characterization. It features a multi-modal fusion module utilizing multi-scale RGB features to enhance point cloud features, coupled with reinforcement learning-based active sensing for autonomous optimization of observation viewpoints. In experiments conducted with various articulated object instances from the PartNet-Mobility dataset, our method outperformed current state-of-the-art methods in joint parameter estimation accuracy. Additionally, through active sensing, MARS further reduces errors, demonstrating enhanced efficiency in handling suboptimal viewpoints. Furthermore, our method effectively generalizes to real-world articulated objects, enhancing robot interactions. Code is available at https://github.com/robhlzeng/MARS.
- Abstract(参考訳): 明瞭な物体の正確な認識は、サービスロボットの強化に不可欠である。
最近の研究は主にポイントクラウド(単一モードのアプローチ)に焦点を当てており、しばしば重要なテクスチャや照明の詳細を無視し、最適な視点や現実のシナリオを表現できないような理想的な条件を仮定している。
これらの制約に対処するため,我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークであるMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダル融合モジュールと、観測視点の自律的最適化のための強化学習ベースのアクティブセンシングを備える。
また,PartNet-Mobilityデータセットから得られた各種オブジェクトインスタンスを用いた実験では,関節パラメータ推定精度において,最先端の手法よりも優れていた。
さらに、アクティブセンシングにより、MARSはエラーをさらに減らし、最適化された視点を扱う際の効率を向上する。
さらに,本手法は実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
コードはhttps://github.com/robhlzeng/MARSで入手できる。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
ロボットは実世界のロボット応用において,頑健な知覚と操作性を示すことが不可欠である。
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Smart Explorer: Recognizing Objects in Dense Clutter via Interactive
Exploration [31.38518623440405]
密集した物体を正確に認識することは、様々なロボット操作タスクにおいて重要な役割を担っている。
本稿では,高密度なオブジェクトを認識できるSmart Explorerという対話型探索フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-06T11:04:04Z) - Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文 参考訳(メタデータ) (2022-06-24T08:24:42Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Improving Object Permanence using Agent Actions and Reasoning [8.847502932609737]
既存のアプローチは、低レベルの知覚からオブジェクト永続性を学ぶ。
我々は、ロボットが実行された動作に関する知識を使用する場合、オブジェクトの永続性を改善することができると論じる。
論文 参考訳(メタデータ) (2021-10-01T07:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。