論文の概要: RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching
- arxiv url: http://arxiv.org/abs/2509.14966v1
- Date: Thu, 18 Sep 2025 13:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.25153
- Title: RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching
- Title(参考訳): RoboEye: 選択的な3次元幾何学的キーポイントマッチングによる2次元ロボット物体識別の実現
- Authors: Xingwu Zhang, Guanxuan Li, Zhuocheng Zhang, Zijun Long,
- Abstract要約: RoboEyeはドメイン適応型3D推論と軽量アダプタで2Dセマンティック機能を追加するフレームワークである。
実験の結果、RoboEyeはRecall@1を7.1%改善した。
- 参考スコア(独自算出の注目度): 5.240139281459202
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapidly growing number of product categories in large-scale e-commerce makes accurate object identification for automated packing in warehouses substantially more difficult. As the catalog grows, intra-class variability and a long tail of rare or visually similar items increase, and when combined with diverse packaging, cluttered containers, frequent occlusion, and large viewpoint changes-these factors amplify discrepancies between query and reference images, causing sharp performance drops for methods that rely solely on 2D appearance features. Thus, we propose RoboEye, a two-stage identification framework that dynamically augments 2D semantic features with domain-adapted 3D reasoning and lightweight adapters to bridge training deployment gaps. In the first stage, we train a large vision model to extract 2D features for generating candidate rankings. A lightweight 3D-feature-awareness module then estimates 3D feature quality and predicts whether 3D re-ranking is necessary, preventing performance degradation and avoiding unnecessary computation. When invoked, the second stage uses our robot 3D retrieval transformer, comprising a 3D feature extractor that produces geometry-aware dense features and a keypoint-based matcher that computes keypoint-correspondence confidences between query and reference images instead of conventional cosine-similarity scoring. Experiments show that RoboEye improves Recall@1 by 7.1% over the prior state of the art (RoboLLM). Moreover, RoboEye operates using only RGB images, avoiding reliance on explicit 3D inputs and reducing deployment costs. The code used in this paper is publicly available at: https://github.com/longkukuhi/RoboEye.
- Abstract(参考訳): 大規模eコマースにおける製品カテゴリーの急速な増加は、倉庫の自動梱包のための正確なオブジェクト識別を著しく困難にしている。
カタログが大きくなるにつれて、クラス内の変動性と、希少または視覚的に類似したアイテムの長い尾が増加し、多様なパッケージング、ばらばらなコンテナ、頻繁な閉塞、大きな視点の変化と組み合わせることで、クエリと参照画像の相違が増幅され、2次元の外観特徴のみに依存するメソッドのパフォーマンスが急落する。
そこで本研究では,ドメイン適応型3D推論と軽量アダプタによる2Dセマンティック機能を動的に拡張し,デプロイメントギャップを埋める2段階識別フレームワークRoboEyeを提案する。
最初の段階では、候補ランキングを生成するための2次元特徴を抽出するために、大きな視覚モデルを訓練する。
軽量な3D機能認識モジュールは、3Dの特徴品質を推定し、3Dの再ランク付けが必要かどうかを予測し、性能劣化を防止し、不要な計算を避ける。
また,2段目では,従来のコサイン類似性スコアではなく,クエリと参照画像のキーポイント対応信頼度を計算するキーポイントベースの整合器と,幾何学的特徴量を生成する3次元特徴抽出器を,ロボット3D検索変換器として使用した。
実験によると、RoboEyeは以前の最先端(RoboLLM)よりもRecall@1を7.1%改善している。
さらに、RoboEyeはRGBイメージのみを使用して、明示的な3D入力への依存を避け、デプロイメントコストを削減している。
この論文で使用されたコードは、https://github.com/longkukuhi/RoboEye.comで公開されている。
関連論文リスト
- 3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement [2.2122801766964795]
3DGS-CDは3Dシーンにおける物体の物理的配置を検出する最初の3Dガウス散乱(3DGS)に基づく手法である。
提案手法では,異なる時間に撮影された2つの不整合画像を比較して3次元オブジェクトレベルの変化を推定する。
提案手法は,18秒以内のスパース画像を用いて,散在する環境の変化を正確に識別することができる。
論文 参考訳(メタデータ) (2024-11-06T07:08:41Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。