論文の概要: Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2407.00985v1
- Date: Mon, 1 Jul 2024 05:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:36:18.691177
- Title: Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
- Title(参考訳): マルチモーダル基礎モデルと最適輸送ポリゴンマッチングに基づくオープン語彙操作命令からのオブジェクトセグメンテーション
- Authors: Takayuki Nishimura, Katsuyuki Kuyo, Motonari Kambara, Komei Sugiura,
- Abstract要約: 対象オブジェクトに対するセグメンテーションマスクをオブジェクト操作命令から生成するタスクについて検討する。
本研究では,オープンな語彙命令からセグメンテーションマスクを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 0.8749675983608172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of generating segmentation masks for the target object from an object manipulation instruction, which allows users to give open vocabulary instructions to domestic service robots. Conventional segmentation generation approaches often fail to account for objects outside the camera's field of view and cases in which the order of vertices differs but still represents the same polygon, which leads to erroneous mask generation. In this study, we propose a novel method that generates segmentation masks from open vocabulary instructions. We implement a novel loss function using optimal transport to prevent significant loss where the order of vertices differs but still represents the same polygon. To evaluate our approach, we constructed a new dataset based on the REVERIE dataset and Matterport3D dataset. The results demonstrated the effectiveness of the proposed method compared with existing mask generation methods. Remarkably, our best model achieved a +16.32% improvement on the dataset compared with a representative polygon-based method.
- Abstract(参考訳): 本研究では,対象物に対するセグメンテーションマスクを対象物操作命令から生成するタスクについて考察する。
従来のセグメンテーション生成アプローチでは、カメラの視野の外のオブジェクトや、頂点の順序が異なるが、それでも同一のポリゴンを表現している場合を説明できないことが多く、誤ったマスク生成につながる。
本研究では,オープンな語彙命令からセグメンテーションマスクを生成する手法を提案する。
我々は,頂点の順序が異なるが,同じ多角形を表す場合,大きな損失を防止するために,最適な輸送を用いた新しい損失関数を実装した。
提案手法を評価するため,REVERIEデータセットとMatterport3Dデータセットに基づく新しいデータセットを構築した。
その結果,既存のマスク生成法と比較して提案手法の有効性が示された。
注目すべきことに、我々の最良のモデルは、代表的ポリゴン法と比較して、データセットの+16.32%の改善を達成した。
関連論文リスト
- Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - EFEM: Equivariant Neural Field Expectation Maximization for 3D Object
Segmentation Without Scene Supervision [35.232051353760035]
本研究では,3次元シーンのオブジェクトをアノテーションやトレーニングなしでセグメント化するために,EFEM(Equivariant Neural Field expectation Maximization)を導入する。
まず、この問題に同変形状表現を導入し、オブジェクト構成の変化によって引き起こされる複雑さを解消する。
第2に,前述した同変形状を用いて分割マスクを反復的に洗練する新しいEMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:59:29Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - PointInst3D: Segmenting 3D Instances by Points [136.7261709896713]
本稿では,ポイント単位の予測方式で機能する,完全畳み込み型3Dポイントクラウドインスタンスセグメンテーション手法を提案する。
その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。
提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。
論文 参考訳(メタデータ) (2022-04-25T02:41:46Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised
Semantic Segmentation [156.9155100983315]
ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースのクラス非依存な擬似マスクジェネレータを求める。
この方法は、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに埋めることができます。
論文 参考訳(メタデータ) (2021-03-09T14:54:54Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - GridMask Data Augmentation [76.79300104795966]
本稿では,新しいデータ拡張手法であるGridMaskを提案する。
情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T07:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。