論文の概要: Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions
- arxiv url: http://arxiv.org/abs/2307.08597v1
- Date: Mon, 17 Jul 2023 16:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:27:23.517261
- Title: Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions
- Title(参考訳): 操作命令からのオブジェクト分割のためのマルチモーダル拡散セグメンテーションモデル
- Authors: Yui Iioka, Yu Yoshida, Yuiga Wada, Shumpei Hatanaka and Komei Sugiura
- Abstract要約: 本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we aim to develop a model that comprehends a natural language
instruction (e.g., "Go to the living room and get the nearest pillow to the
radio art on the wall") and generates a segmentation mask for the target
everyday object. The task is challenging because it requires (1) the
understanding of the referring expressions for multiple objects in the
instruction, (2) the prediction of the target phrase of the sentence among the
multiple phrases, and (3) the generation of pixel-wise segmentation masks
rather than bounding boxes. Studies have been conducted on languagebased
segmentation methods; however, they sometimes mask irrelevant regions for
complex sentences. In this paper, we propose the Multimodal Diffusion
Segmentation Model (MDSM), which generates a mask in the first stage and
refines it in the second stage. We introduce a crossmodal parallel feature
extraction mechanism and extend diffusion probabilistic models to handle
crossmodal features. To validate our model, we built a new dataset based on the
well-known Matterport3D and REVERIE datasets. This dataset consists of
instructions with complex referring expressions accompanied by real indoor
environmental images that feature various target objects, in addition to
pixel-wise segmentation masks. The performance of MDSM surpassed that of the
baseline method by a large margin of +10.13 mean IoU.
- Abstract(参考訳): 本研究では,自然言語教育(例えば「居室へ行き,最寄りの枕を壁のラジオアートに届ける」など)を理解するモデルを開発し,対象の日常的対象に対してセグメンテーションマスクを作成することを目的とする。
この課題は,(1)指示中の複数の対象に対する参照表現の理解,(2)複数の句間の文の目標句の予測,(3)バウンディングボックスではなくピクセル単位のセグメンテーションマスクの生成を必要とするため,課題である。
言語に基づくセグメンテーション手法に関する研究は行われているが、複雑な文に対して無関係な領域を隠蔽することもある。
本稿では,第1段階でマスクを生成し,第2段階で精錬するマルチモーダル拡散セグメンテーションモデル(mdsm)を提案する。
クロスモーダル特徴抽出機構を導入し,拡散確率モデルを拡張してクロスモーダル特徴を扱う。
モデルを検証するために、よく知られているmatterport3dとreverieデータセットに基づいた新しいデータセットを構築しました。
このデータセットは、画素ワイドセグメンテーションマスクに加えて、様々な対象物を含む屋内の実際の環境画像を伴う複雑な参照表現を含む命令からなる。
mdsmの性能は、ベースライン法に比べて+10.13平均iouを大きく上回った。
関連論文リスト
- A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask
Inpainting [3.0978367490767624]
この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。
トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
生成モデルを使用することで、インタラクティブなセグメンテーションに応用できるマスクの完成や塗装の探索が解き放たれる。
論文 参考訳(メタデータ) (2024-01-18T18:59:19Z) - Amodal Ground Truth and Completion in the Wild [92.36449676571237]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、アモーダル完了評価ベンチマーク、MP3D-Amodalを構築するために使用される。
提案手法は,Amodalセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Multi-task deep learning for image segmentation using recursive
approximation tasks [5.735162284272276]
セグメンテーションのためのディープニューラルネットワークは通常、手作業で作成するのに高価な大量のピクセルレベルのラベルを必要とする。
本研究では,この制約を緩和するマルチタスク学習手法を提案する。
ネットワークは、非常に少量の精度で区切られた画像と大量の粗いラベルで訓練されている。
論文 参考訳(メタデータ) (2020-05-26T21:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。