Fugu-MT 論文翻訳(概要): Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping

論文の概要: Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping

arxiv url: http://arxiv.org/abs/2404.06277v2
Date: Mon, 8 Jul 2024 15:29:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 01:59:35.931527
Title: Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping
Title（参考訳）: ロボットグラスピングにおける物体識別のためのセントロイドトリプレット損失の学習
Authors: Anas Gouda, Max Schwarz, Christopher Reining, Sven Behnke, Alice Kirchheim,
Abstract要約: 基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。本稿では,そのような物体識別モデルの訓練に焦点をあてる。このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
参考スコア（独自算出の注目度）: 14.958823096408175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models are a strong trend in deep learning and computer vision. These models serve as a base for applications as they require minor or no further fine-tuning by developers to integrate into their applications. Foundation models for zero-shot object segmentation such as Segment Anything (SAM) output segmentation masks from images without any further object information. When they are followed in a pipeline by an object identification model, they can perform object detection without training. Here, we focus on training such an object identification model. A crucial practical aspect for an object identification model is to be flexible in input size. As object identification is an image retrieval problem, a suitable method should handle multi-query multi-gallery situations without constraining the number of input images (e.g. by having fixed-size aggregation layers). The key solution to train such a model is the centroid triplet loss (CTL), which aggregates image features to their centroids. CTL yields high accuracy, avoids misleading training signals and keeps the model input size flexible. In our experiments, we establish a new state of the art on the ArmBench object identification task, which shows general applicability of our model. We furthermore demonstrate an integrated unseen object detection pipeline on the challenging HOPE dataset, which requires fine-grained detection. There, our pipeline matches and surpasses related methods which have been trained on dataset-specific data.
Abstract（参考訳）: 基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。これらのモデルは、開発者がアプリケーションに統合するために、マイナーまたはそれ以上の微調整を必要としないため、アプリケーションの基盤として機能する。 Segment Anything (SAM) のようなゼロショットオブジェクトセグメンテーションのための基礎モデルは、追加のオブジェクト情報なしで画像からセグメンテーションマスクを出力する。それらがオブジェクト識別モデルによってパイプラインに追従されると、トレーニングなしでオブジェクト検出を行うことができる。本稿では,そのような物体識別モデルの訓練に焦点をあてる。オブジェクト識別モデルにとって重要な実践的側面は、入力サイズで柔軟であることである。オブジェクト識別は画像検索の問題であるため、入力画像の数(例えば、一定の大きさの集約層を持つことで)を制約することなく、複数クエリのマルチギャラリ状況を扱うのに適した方法が必要である。このようなモデルをトレーニングする鍵となる解決策は、遠心三重項損失(CTL)である。 CTLは精度が高く、誤った学習信号を避け、モデルの入力サイズを柔軟に保つ。実験では、ArmBenchオブジェクト識別タスクに新たな最先端技術を導入し、モデルの汎用性を示す。さらに、難易度の高いHOPEデータセット上で、未確認オブジェクト検出パイプラインの統合を実証する。そこで、私たちのパイプラインは、データセット固有のデータに基づいてトレーニングされた関連するメソッドと一致し、オーバーします。

関連論文リスト

OSCAR: Open-Set CAD Retrieval from a Language Prompt and a Single Image [7.903776990851827]
言語プロンプトと単一画像(OSCAR)からオープンセットCAD検索を導入する。 OSCARはラベルのない3Dオブジェクトデータベースから一致するオブジェクトモデルを取得する。我々は,YCB-Vオブジェクトデータセット上でのオブジェクト検索において,OSCARの平均精度が90.48%であることを示す。
論文参考訳（メタデータ） (2026-01-12T08:59:22Z)
One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
Leveraging Foundation Models To learn the shape of semi-fluid deformable objects [0.7895162173260983]
過去10年間、非流動性のある変形可能な物体を特徴付け、操作する研究者によって強い関心が浮かび上がった。本稿では,動作制御対象の情報として機能する安定な特徴を定義するために,溶接プールの特徴付けの課題に対処する。基礎モデルからより小さな生成モデルへの知識蒸留の性能は、変形可能な物体のキャラクタリゼーションにおいて顕著な結果を示す。
論文参考訳（メタデータ） (2024-11-25T13:41:35Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文参考訳（メタデータ） (2023-11-23T02:35:38Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
DR-WLC: Dimensionality Reduction cognition for object detection and pose estimation by Watching, Learning and Checking [30.58114448119465]
既存の物体検出法とポーズ推定法は、主に訓練に同次元のデータを用いる。次元減少認知モデルであるDR-WLCは、物体検出と推定タスクを同時に行うことができる。
論文参考訳（メタデータ） (2023-01-17T15:08:32Z)
MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-12-13T19:30:03Z)
Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文参考訳（メタデータ） (2021-08-04T18:29:42Z)
Rectifying the Shortcut Learning of Background: Shared Object Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文参考訳（メタデータ） (2021-07-16T07:46:41Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-05T14:15:49Z)
Few-shot Object Detection on Remote Sensing Images [11.40135025181393]
リモートセンシング画像におけるオブジェクト検出のための数ショットの学習手法を提案する。我々は、YOLOv3アーキテクチャに基づいて、少数ショットオブジェクト検出モデルを構築し、マルチスケールオブジェクト検出フレームワークを開発する。
論文参考訳（メタデータ） (2020-06-14T07:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。