論文の概要: Fusing Visual Appearance and Geometry for Multi-modality 6DoF Object
Tracking
- arxiv url: http://arxiv.org/abs/2302.11458v1
- Date: Wed, 22 Feb 2023 15:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:46:33.213882
- Title: Fusing Visual Appearance and Geometry for Multi-modality 6DoF Object
Tracking
- Title(参考訳): マルチモード6DoF物体追跡のための視覚的外観と幾何学
- Authors: Manuel Stoiber, Mariam Elsayed, Anne E. Reichert, Florian Steidle,
Dongheui Lee, Rudolph Triebel
- Abstract要約: 視覚的な外観や形状から情報を融合してオブジェクトのポーズを推定する多モードトラッカーを開発した。
このアルゴリズムは、幾何学的手法であるICGを拡張し、表面の外観をさらに考慮する。
- 参考スコア(独自算出の注目度): 21.74515335906769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many applications of advanced robotic manipulation, six degrees of freedom
(6DoF) object pose estimates are continuously required. In this work, we
develop a multi-modality tracker that fuses information from visual appearance
and geometry to estimate object poses. The algorithm extends our previous
method ICG, which uses geometry, to additionally consider surface appearance.
In general, object surfaces contain local characteristics from text, graphics,
and patterns, as well as global differences from distinct materials and colors.
To incorporate this visual information, two modalities are developed. For local
characteristics, keypoint features are used to minimize distances between
points from keyframes and the current image. For global differences, a novel
region approach is developed that considers multiple regions on the object
surface. In addition, it allows the modeling of external geometries.
Experiments on the YCB-Video and OPT datasets demonstrate that our approach
ICG+ performs best on both datasets, outperforming both conventional and deep
learning-based methods. At the same time, the algorithm is highly efficient and
runs at more than 300 Hz. The source code of our tracker is publicly available.
- Abstract(参考訳): 高度なロボット操作の多くの応用において、6自由度(6DoF)オブジェクトのポーズ推定が継続的に必要である。
本研究では,視覚的な外観と形状から情報を融合して物体のポーズを推定するマルチモダリティトラッカを開発した。
このアルゴリズムは、幾何学的手法であるICGを拡張し、表面の外観をさらに考慮する。
一般に、オブジェクト表面は、テキスト、グラフィック、パターンの局所的な特徴と、異なる材料や色とのグローバルな差異を含んでいる。
この視覚情報を組み込むために、2つのモダリティを開発する。
局所的な特徴では、キーフレームと現在の画像間の距離を最小化するためにキーポイント機能を使用する。
グローバルな差異のために、対象表面上の複数の領域を考慮した新しい領域アプローチが開発されている。
加えて、外部のジオメトリのモデリングも可能である。
YCB-Video と OPT のデータセットの実験では、我々のアプローチ ICG+ は両方のデータセットで最高性能を示し、従来の手法とディープラーニングベースの手法の両方より優れている。
同時に、アルゴリズムは非常に効率的で、300Hz以上で動作する。
トラッカーのソースコードは公開されています。
関連論文リスト
- GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。
本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。
実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文 参考訳(メタデータ) (2024-09-15T02:26:17Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - SDFEst: Categorical Pose and Shape Estimation of Objects from RGB-D
using Signed Distance Fields [5.71097144710995]
RGB-D画像からのオブジェクトのポーズと形状推定のためのモジュールパイプラインを提案する。
生成型形状モデルと新しいネットワークを統合して,単一または複数ビューからの6次元ポーズと形状推定を可能にする。
我々は、合成データと実データの両方に関するいくつかの実験において、最先端手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-07-11T13:53:50Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Depth Completion using Geometry-Aware Embedding [22.333381291860498]
本稿では,幾何認識の埋め込みを効率的に学習する手法を提案する。
局所的および大域的な幾何学的構造情報を、例えば、シーンレイアウト、オブジェクトのサイズと形状などの3Dポイントから符号化し、深度推定を導く。
論文 参考訳(メタデータ) (2022-03-21T12:06:27Z) - Iterative Corresponding Geometry: Fusing Region and Depth for Highly
Efficient 3D Tracking of Textureless Objects [25.448657318818764]
ICGは領域と深度情報を融合させる新しい確率的トラッカーであり、物体形状のみを必要とする。
本手法では, 対応線を配置し, ポーズを反復的に洗練する。
YCB-Video、OPT、Choiデータセットの実験は、テクスチャ化されたオブジェクトであっても、我々のアプローチが現在の技術よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-03-10T12:30:50Z) - FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-03-03T08:07:29Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。