Fugu-MT 論文翻訳(概要): MARS: Multimodal Active Robotic Sensing for Articulated Characterization

論文の概要: MARS: Multimodal Active Robotic Sensing for Articulated Characterization

arxiv url: http://arxiv.org/abs/2407.01191v1
Date: Mon, 1 Jul 2024 11:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 21:49:58.246628
Title: MARS: Multimodal Active Robotic Sensing for Articulated Characterization
Title（参考訳）: MARS:マルチモーダルアクティブロボットセンシング
Authors: Hongliang Zeng, Ping Zhang, Chengjiong Wu, Jiahua Wang, Tingyu Ye, Fang Li,
Abstract要約: 我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークMARSを紹介する。マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダルフュージョンモジュールを備えている。本手法は,実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
参考スコア（独自算出の注目度）: 6.69660410213287
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Precise perception of articulated objects is vital for empowering service robots. Recent studies mainly focus on point cloud, a single-modal approach, often neglecting vital texture and lighting details and assuming ideal conditions like optimal viewpoints, unrepresentative of real-world scenarios. To address these limitations, we introduce MARS, a novel framework for articulated object characterization. It features a multi-modal fusion module utilizing multi-scale RGB features to enhance point cloud features, coupled with reinforcement learning-based active sensing for autonomous optimization of observation viewpoints. In experiments conducted with various articulated object instances from the PartNet-Mobility dataset, our method outperformed current state-of-the-art methods in joint parameter estimation accuracy. Additionally, through active sensing, MARS further reduces errors, demonstrating enhanced efficiency in handling suboptimal viewpoints. Furthermore, our method effectively generalizes to real-world articulated objects, enhancing robot interactions. Code is available at https://github.com/robhlzeng/MARS.
Abstract（参考訳）: 明瞭な物体の正確な認識は、サービスロボットの強化に不可欠である。最近の研究は主にポイントクラウド(単一モードのアプローチ)に焦点を当てており、しばしば重要なテクスチャや照明の詳細を無視し、最適な視点や現実のシナリオを表現できないような理想的な条件を仮定している。これらの制約に対処するため,我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークであるMARSを紹介する。マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダル融合モジュールと、観測視点の自律的最適化のための強化学習ベースのアクティブセンシングを備える。また,PartNet-Mobilityデータセットから得られた各種オブジェクトインスタンスを用いた実験では,関節パラメータ推定精度において,最先端の手法よりも優れていた。さらに、アクティブセンシングにより、MARSはエラーをさらに減らし、最適化された視点を扱う際の効率を向上する。さらに,本手法は実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。コードはhttps://github.com/robhlzeng/MARSで入手できる。

関連論文リスト

Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition [28.174638880324014]
BHaRNetは、典型的なボディエキスパートモデルをハンドエキスパートモデルで拡張する新しいフレームワークである。我々のモデルは、協調的な専門化を促進するアンサンブル損失で、両方のストリームを共同で訓練する。 MMNetに触発されて、RGB情報を活用することで、マルチモーダルタスクへのアプローチの適用性を実証する。
論文参考訳（メタデータ） (2025-03-19T07:54:52Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
Moving Object Segmentation in Point Cloud Data using Hidden Markov Models [0.0]
我々は,移動物体を点クラウドデータにセグメント化するための頑健な学習自由アプローチを提案する。提案手法はベンチマークデータセット上でテストされ、最先端の手法よりも一貫してパフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-24T10:56:02Z)
Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。 RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文参考訳（メタデータ） (2024-03-24T05:55:39Z)
Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文参考訳（メタデータ） (2024-02-04T14:18:45Z)
Smart Explorer: Recognizing Objects in Dense Clutter via Interactive Exploration [31.38518623440405]
密集した物体を正確に認識することは、様々なロボット操作タスクにおいて重要な役割を担っている。本稿では,高密度なオブジェクトを認識できるSmart Explorerという対話型探索フレームワークを提案する。
論文参考訳（メタデータ） (2022-08-06T11:04:04Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Improving Object Permanence using Agent Actions and Reasoning [8.847502932609737]
既存のアプローチは、低レベルの知覚からオブジェクト永続性を学ぶ。我々は、ロボットが実行された動作に関する知識を使用する場合、オブジェクトの永続性を改善することができると論じる。
論文参考訳（メタデータ） (2021-10-01T07:09:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。