論文の概要: Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement
- arxiv url: http://arxiv.org/abs/2111.07975v1
- Date: Mon, 15 Nov 2021 18:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 18:15:16.654301
- Title: Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement
- Title(参考訳): ロバストなロボットシーン再構成のための意味的グラウンドオブジェクトマッチング
- Authors: Walter Goodwin, Sagar Vaze, Ioannis Havoutis, Ingmar Posner
- Abstract要約: そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 21.736603698556042
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Object rearrangement has recently emerged as a key competency in robot
manipulation, with practical solutions generally involving object detection,
recognition, grasping and high-level planning. Goal-images describing a desired
scene configuration are a promising and increasingly used mode of instruction.
A key outstanding challenge is the accurate inference of matches between
objects in front of a robot, and those seen in a provided goal image, where
recent works have struggled in the absence of object-specific training data. In
this work, we explore the deterioration of existing methods' ability to infer
matches between objects as the visual shift between observed and goal scenes
increases. We find that a fundamental limitation of the current setting is that
source and target images must contain the same $\textit{instance}$ of every
object, which restricts practical deployment. We present a novel approach to
object matching that uses a large pre-trained vision-language model to match
objects in a cross-instance setting by leveraging semantics together with
visual features as a more robust, and much more general, measure of similarity.
We demonstrate that this provides considerably improved matching performance in
cross-instance settings, and can be used to guide multi-object rearrangement
with a robot manipulator from an image that shares no object
$\textit{instances}$ with the robot's scene.
- Abstract(参考訳): オブジェクトの再配置は、ロボット操作における重要な能力として最近登場し、一般的にはオブジェクトの検出、認識、把握、高レベルの計画を含む実用的なソリューションである。
所望のシーン構成を記述するゴールイメージは、有望でますます使われている命令モードである。
重要な課題は、ロボットの前にあるオブジェクトと、オブジェクト固有のトレーニングデータがないという最近の研究で苦労している、提供された目標画像に見られるオブジェクトの一致の正確な推測である。
本研究では,観測シーンとゴールシーンの視覚的シフトが増加するにつれて,オブジェクト間のマッチングを推測する既存手法の劣化について検討する。
現在の設定の基本的な制限は、ソースとターゲットイメージがすべてのオブジェクトに対して同じ$\textit{instance}$でなければならないことである。
本稿では,視覚的特徴とセマンティクスを併用して,より堅牢で汎用的な類似度尺度として活用することにより,大規模学習済みの視覚言語モデルを用いたオブジェクトマッチング手法を提案する。
これは、クロスインスタンス設定でのマッチング性能が大幅に向上することを示し、ロボットマニピュレータによるマルチオブジェクトの再構成をロボットのシーンと共有しない画像から導くために使用できる。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Instance Segmentation of Visible and Occluded Regions for Finding and
Picking Target from a Pile of Objects [25.836334764387498]
本研究では,対象物体の発見・把握が可能な物体の山から対象物を選択するロボットシステムを提案する。
既存のインスタンスセグメンテーションモデルを新しいリルックアーキテクチャで拡張し、モデルがインスタンス間の関係を明示的に学習する。
また、画像合成により、人間のアノテーションを使わずに新しいオブジェクトを処理できるシステムを構築する。
論文 参考訳(メタデータ) (2020-01-21T12:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。