論文の概要: Scene Understanding in Pick-and-Place Tasks: Analyzing Transformations Between Initial and Final Scenes
- arxiv url: http://arxiv.org/abs/2409.17720v1
- Date: Thu, 26 Sep 2024 10:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:20:41.306190
- Title: Scene Understanding in Pick-and-Place Tasks: Analyzing Transformations Between Initial and Final Scenes
- Title(参考訳): ピック・アンド・プレイス課題におけるシーン理解:初期シーンと最終シーンの変換の分析
- Authors: Seraj Ghasemi, Hamed Hosseini, MohammadHossein Koosheshi, Mehdi Tale Masouleh, Ahmad Kalhor,
- Abstract要約: この研究は、シーンからの初期画像と最終画像が与えられたタスクを検知し、配置するためのシーン理解に焦点を当てている。
オブジェクト検出のためのデータセットが収集され、タスク検出が選択および配置される。
その後、YOLOv5ネットワークがトレーニングされ、最初のシーンと最後のシーンのオブジェクトを検出する。
- 参考スコア(独自算出の注目度): 2.621434923709917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With robots increasingly collaborating with humans in everyday tasks, it is important to take steps toward robotic systems capable of understanding the environment. This work focuses on scene understanding to detect pick and place tasks given initial and final images from the scene. To this end, a dataset is collected for object detection and pick and place task detection. A YOLOv5 network is subsequently trained to detect the objects in the initial and final scenes. Given the detected objects and their bounding boxes, two methods are proposed to detect the pick and place tasks which transform the initial scene into the final scene. A geometric method is proposed which tracks objects' movements in the two scenes and works based on the intersection of the bounding boxes which moved within scenes. Contrarily, the CNN-based method utilizes a Convolutional Neural Network to classify objects with intersected bounding boxes into 5 classes, showing the spatial relationship between the involved objects. The performed pick and place tasks are then derived from analyzing the experiments with both scenes. Results show that the CNN-based method, using a VGG16 backbone, outscores the geometric method by roughly 12 percentage points in certain scenarios, with an overall success rate of 84.3%.
- Abstract(参考訳): ロボットは日々の作業において人間と協力することが多くなっているため、環境を理解することができるロボットシステムへの一歩を踏み出すことが重要である。
この研究は、シーンからの初期画像と最終画像が与えられたタスクを検知し、配置するためのシーン理解に焦点を当てている。
この目的のために、オブジェクト検出のためのデータセットが収集され、タスク検出が選択および配置される。
その後、YOLOv5ネットワークがトレーニングされ、最初のシーンと最後のシーンのオブジェクトを検出する。
検出されたオブジェクトとそのバウンディングボックスから、初期シーンを最終シーンに変換するタスクのピックと配置を検出する2つの方法が提案されている。
2つのシーンにおける物体の動きを追跡する幾何学的手法を提案し,シーン内を移動した境界箱の交点に基づいて作業を行う。
対照的に、CNNベースの手法では、畳み込みニューラルネットワークを用いて、交差した境界ボックスを持つオブジェクトを5つのクラスに分類し、関連するオブジェクト間の空間的関係を示す。
実行されたピック・アンド・プレイス・タスクは、両方のシーンで実験を分析することから導かれる。
その結果、VGG16バックボーンを用いたCNN法は、特定のシナリオで約12ポイント、全体の成功率は84.3%という幾何学的手法よりも優れていた。
関連論文リスト
- DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。
本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。
オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文 参考訳(メタデータ) (2024-03-22T13:46:51Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Open-Set Object Detection Using Classification-free Object Proposal and
Instance-level Contrastive Learning [25.935629339091697]
オープンセットオブジェクト検出(OSOD)は、オブジェクトと背景分離、オープンセットオブジェクト分類という2つのサブタスクからなる問題を処理するための有望な方向である。
我々は,OSODの課題に対処するため,Openset RCNNを提案する。
我々のOpenset RCNNは、散らばった環境下でロボットの並べ替えタスクをサポートするオープンセットの知覚能力でロボットを支援できることを示します。
論文 参考訳(メタデータ) (2022-11-21T15:00:04Z) - Leveraging commonsense for object localisation in partial scenes [36.47035776975184]
空間コモンセンスグラフ(D-SCG)の幾何学的推論を容易にする新しいシーン表現を提案する。
新たな注目メッセージパッシング機構を実装したグラフニューラルネットワークを用いて,対象物体の未知の位置を推定する。
本研究では, 局所化精度を8倍に向上させるため, 部分ScanNetによる手法の評価を行い, 最先端技術の改善を5.9%向上させた。
論文 参考訳(メタデータ) (2022-11-01T16:17:07Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。