論文の概要: Finding NeMO: A Geometry-Aware Representation of Template Views for Few-Shot Perception
- arxiv url: http://arxiv.org/abs/2602.04343v1
- Date: Wed, 04 Feb 2026 09:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.445461
- Title: Finding NeMO: A Geometry-Aware Representation of Template Views for Few-Shot Perception
- Title(参考訳): ファウショット認識のためのテンプレートビューの幾何学的表現
- Authors: Sebastian Jung, Leonard Klüpfel, Rudolph Triebel, Maximilian Durner,
- Abstract要約: 本稿では、RGB画像を用いたトレーニング中に見つからない物体の6DoFポーズの検出、セグメント化、推定に使用できる新しいオブジェクト中心表現を提案する。
本手法は,オブジェクトがスパースなオブジェクトのような点群を生成するために,オブジェクトを描写するRGBテンプレートビューを少数必要とするようなエンコーダから構成される。
次に、デコーダは、オブジェクトをクエリ画像とともに符号化し、様々な密集した予測を生成する。
- 参考スコア(独自算出の注目度): 9.145558382187524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Neural Memory Object (NeMO), a novel object-centric representation that can be used to detect, segment and estimate the 6DoF pose of objects unseen during training using RGB images. Our method consists of an encoder that requires only a few RGB template views depicting an object to generate a sparse object-like point cloud using a learned UDF containing semantic and geometric information. Next, a decoder takes the object encoding together with a query image to generate a variety of dense predictions. Through extensive experiments, we show that our method can be used for few-shot object perception without requiring any camera-specific parameters or retraining on target data. Our proposed concept of outsourcing object information in a NeMO and using a single network for multiple perception tasks enhances interaction with novel objects, improving scalability and efficiency by enabling quick object onboarding without retraining or extensive pre-processing. We report competitive and state-of-the-art results on various datasets and perception tasks of the BOP benchmark, demonstrating the versatility of our approach. https://github.com/DLR-RM/nemo
- Abstract(参考訳): 我々は、RGB画像を用いてトレーニング中に見えない物体の6DoFポーズを検出し、セグメント化し、推定することができる新しいオブジェクト中心表現であるNeMO(Neural Memory Object)を提案する。
本手法は,意味的および幾何学的情報を含む学習UDFを用いて,オブジェクトがスパースなオブジェクトのような点群を生成するために,オブジェクトを描写するRGBテンプレートビューのみを必要とするエンコーダから構成される。
次に、デコーダは、オブジェクトをクエリ画像とともに符号化し、様々な密集した予測を生成する。
広範にわたる実験により,カメラ固有のパラメータや対象データの再学習を必要とせず,数発の物体認識に応用できることが判明した。
提案する概念は,複数の知覚タスクに単一ネットワークを用いてオブジェクト情報をアウトソーシングすることで,新しいオブジェクトとのインタラクションを強化し,再トレーニングや広範囲な事前処理を行うことなく,高速なオブジェクトオンボーディングを可能にすることにより,スケーラビリティと効率を向上させる。
我々は,BOPベンチマークの各種データセットと知覚タスクに関する競争力と最先端の成果を報告し,我々のアプローチの汎用性を実証した。
https://github.com/DLR-RM/nemo
関連論文リスト
- One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Object Re-Identification from Point Clouds [3.6308236424346694]
我々は,物体ReIDを点雲から大規模に研究し,画像ReIDに対してその性能を確立する。
我々の知る限りでは、我々は実際の雲の観測から物体の再同定を初めて研究している。
論文 参考訳(メタデータ) (2023-05-17T13:43:03Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - FewSOL: A Dataset for Few-Shot Object Learning in Robotic Environments [21.393674766169543]
本稿では,オブジェクト認識のためのFew-Shot Object Learningデータセットについて紹介する。
私たちは、異なる視点から、オブジェクトごとに9つのRGB-D画像を持つ336の現実世界のオブジェクトをキャプチャしました。
評価結果から, ロボット環境下では, 数発の物体分類において, 改良の余地がまだ大きいことが示唆された。
論文 参考訳(メタデータ) (2022-07-06T05:57:24Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Rapid Pose Label Generation through Sparse Representation of Unknown
Objects [7.32172860877574]
本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
論文 参考訳(メタデータ) (2020-11-07T15:14:03Z) - Contour Primitive of Interest Extraction Network Based on One-Shot
Learning for Object-Agnostic Vision Measurement [37.552192926136065]
単発学習フレームワークに基づく利子抽出ネットワーク(CPieNet)の輪郭プリミティブを提案する。
新たなCPI抽出タスクのために,オンライン公開画像を用いたObject Contour Primitivesデータセットと,ロボットに搭載されたカメラを用いたRobotic Object Contour Measurementデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-07T11:00:30Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。