Fugu-MT 論文翻訳(概要): Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions

論文の概要: Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions

arxiv url: http://arxiv.org/abs/2307.08597v1
Date: Mon, 17 Jul 2023 16:07:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 12:27:23.517261
Title: Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions
Title（参考訳）: 操作命令からのオブジェクト分割のためのマルチモーダル拡散セグメンテーションモデル
Authors: Yui Iioka, Yu Yoshida, Yuiga Wada, Shumpei Hatanaka and Komei Sugiura
Abstract要約: 本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。 MDSMの性能はベースライン法を+10.13で上回った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we aim to develop a model that comprehends a natural language instruction (e.g., "Go to the living room and get the nearest pillow to the radio art on the wall") and generates a segmentation mask for the target everyday object. The task is challenging because it requires (1) the understanding of the referring expressions for multiple objects in the instruction, (2) the prediction of the target phrase of the sentence among the multiple phrases, and (3) the generation of pixel-wise segmentation masks rather than bounding boxes. Studies have been conducted on languagebased segmentation methods; however, they sometimes mask irrelevant regions for complex sentences. In this paper, we propose the Multimodal Diffusion Segmentation Model (MDSM), which generates a mask in the first stage and refines it in the second stage. We introduce a crossmodal parallel feature extraction mechanism and extend diffusion probabilistic models to handle crossmodal features. To validate our model, we built a new dataset based on the well-known Matterport3D and REVERIE datasets. This dataset consists of instructions with complex referring expressions accompanied by real indoor environmental images that feature various target objects, in addition to pixel-wise segmentation masks. The performance of MDSM surpassed that of the baseline method by a large margin of +10.13 mean IoU.
Abstract（参考訳）: 本研究では,自然言語教育(例えば「居室へ行き,最寄りの枕を壁のラジオアートに届ける」など)を理解するモデルを開発し,対象の日常的対象に対してセグメンテーションマスクを作成することを目的とする。この課題は,(1)指示中の複数の対象に対する参照表現の理解,(2)複数の句間の文の目標句の予測,(3)バウンディングボックスではなくピクセル単位のセグメンテーションマスクの生成を必要とするため,課題である。言語に基づくセグメンテーション手法に関する研究は行われているが、複雑な文に対して無関係な領域を隠蔽することもある。本稿では,第1段階でマスクを生成し,第2段階で精錬するマルチモーダル拡散セグメンテーションモデル(mdsm)を提案する。クロスモーダル特徴抽出機構を導入し,拡散確率モデルを拡張してクロスモーダル特徴を扱う。モデルを検証するために、よく知られているmatterport3dとreverieデータセットに基づいた新しいデータセットを構築しました。このデータセットは、画素ワイドセグメンテーションマスクに加えて、様々な対象物を含む屋内の実際の環境画像を伴う複雑な参照表現を含む命令からなる。 mdsmの性能は、ベースライン法に比べて+10.13平均iouを大きく上回った。

関連論文リスト

LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文参考訳（メタデータ） (2025-05-26T02:22:41Z)
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。 HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文参考訳（メタデータ） (2025-03-17T10:29:08Z)
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文参考訳（メタデータ） (2024-11-20T12:02:12Z)
3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文参考訳（メタデータ） (2024-07-30T08:59:05Z)
Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models [0.8749675983608172]
対象オブジェクトに対するセグメンテーションマスクをオブジェクト操作命令から生成するタスクについて検討する。本研究では,オープンな語彙命令からセグメンテーションマスクを生成する手法を提案する。
論文参考訳（メタデータ） (2024-07-01T05:48:48Z)
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文参考訳（メタデータ） (2024-05-27T17:59:41Z)
DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文参考訳（メタデータ） (2023-06-06T06:33:32Z)
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文参考訳（メタデータ） (2023-05-24T16:26:05Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。私たちのフレームワークはシンプルですが驚くほど効果的です。
論文参考訳（メタデータ） (2021-03-30T12:25:27Z)
Multi-task deep learning for image segmentation using recursive approximation tasks [5.735162284272276]
セグメンテーションのためのディープニューラルネットワークは通常、手作業で作成するのに高価な大量のピクセルレベルのラベルを必要とする。本研究では,この制約を緩和するマルチタスク学習手法を提案する。ネットワークは、非常に少量の精度で区切られた画像と大量の粗いラベルで訓練されている。
論文参考訳（メタデータ） (2020-05-26T21:35:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。