論文の概要: Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions
- arxiv url: http://arxiv.org/abs/2307.08597v1
- Date: Mon, 17 Jul 2023 16:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:27:23.517261
- Title: Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions
- Title(参考訳): 操作命令からのオブジェクト分割のためのマルチモーダル拡散セグメンテーションモデル
- Authors: Yui Iioka, Yu Yoshida, Yuiga Wada, Shumpei Hatanaka and Komei Sugiura
- Abstract要約: 本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we aim to develop a model that comprehends a natural language
instruction (e.g., "Go to the living room and get the nearest pillow to the
radio art on the wall") and generates a segmentation mask for the target
everyday object. The task is challenging because it requires (1) the
understanding of the referring expressions for multiple objects in the
instruction, (2) the prediction of the target phrase of the sentence among the
multiple phrases, and (3) the generation of pixel-wise segmentation masks
rather than bounding boxes. Studies have been conducted on languagebased
segmentation methods; however, they sometimes mask irrelevant regions for
complex sentences. In this paper, we propose the Multimodal Diffusion
Segmentation Model (MDSM), which generates a mask in the first stage and
refines it in the second stage. We introduce a crossmodal parallel feature
extraction mechanism and extend diffusion probabilistic models to handle
crossmodal features. To validate our model, we built a new dataset based on the
well-known Matterport3D and REVERIE datasets. This dataset consists of
instructions with complex referring expressions accompanied by real indoor
environmental images that feature various target objects, in addition to
pixel-wise segmentation masks. The performance of MDSM surpassed that of the
baseline method by a large margin of +10.13 mean IoU.
- Abstract(参考訳): 本研究では,自然言語教育(例えば「居室へ行き,最寄りの枕を壁のラジオアートに届ける」など)を理解するモデルを開発し,対象の日常的対象に対してセグメンテーションマスクを作成することを目的とする。
この課題は,(1)指示中の複数の対象に対する参照表現の理解,(2)複数の句間の文の目標句の予測,(3)バウンディングボックスではなくピクセル単位のセグメンテーションマスクの生成を必要とするため,課題である。
言語に基づくセグメンテーション手法に関する研究は行われているが、複雑な文に対して無関係な領域を隠蔽することもある。
本稿では,第1段階でマスクを生成し,第2段階で精錬するマルチモーダル拡散セグメンテーションモデル(mdsm)を提案する。
クロスモーダル特徴抽出機構を導入し,拡散確率モデルを拡張してクロスモーダル特徴を扱う。
モデルを検証するために、よく知られているmatterport3dとreverieデータセットに基づいた新しいデータセットを構築しました。
このデータセットは、画素ワイドセグメンテーションマスクに加えて、様々な対象物を含む屋内の実際の環境画像を伴う複雑な参照表現を含む命令からなる。
mdsmの性能は、ベースライン法に比べて+10.13平均iouを大きく上回った。
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models [0.8749675983608172]
対象オブジェクトに対するセグメンテーションマスクをオブジェクト操作命令から生成するタスクについて検討する。
本研究では,オープンな語彙命令からセグメンテーションマスクを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T05:48:48Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Multi-task deep learning for image segmentation using recursive
approximation tasks [5.735162284272276]
セグメンテーションのためのディープニューラルネットワークは通常、手作業で作成するのに高価な大量のピクセルレベルのラベルを必要とする。
本研究では,この制約を緩和するマルチタスク学習手法を提案する。
ネットワークは、非常に少量の精度で区切られた画像と大量の粗いラベルで訓練されている。
論文 参考訳(メタデータ) (2020-05-26T21:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。