論文の概要: MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2503.13881v1
- Date: Tue, 18 Mar 2025 04:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:11.340673
- Title: MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation
- Title(参考訳): MMR:マルチターゲットおよび多粒度推論セグメンテーションのための大規模ベンチマークデータセット
- Authors: Donggon Jang, Yucheol Cho, Suin Lee, Taehyeon Kim, Dae-Shik Kim,
- Abstract要約: MMR(Multi-target and Multi-granularity Reasoning)と呼ばれるデータセットを提案する。
MMRは194Kの複雑で暗黙的な命令で構成されており、マルチターゲット、オブジェクトレベル、そして部分レベルの側面を考慮に入れている。
本稿では,多目的,オブジェクトレベル,部分レベルの推論セグメンテーションのための,単純かつ効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.144097766150397
- License:
- Abstract: The fusion of Large Language Models with vision models is pioneering new possibilities in user-interactive vision-language tasks. A notable application is reasoning segmentation, where models generate pixel-level segmentation masks by comprehending implicit meanings in human instructions. However, seamless human-AI interaction demands more than just object-level recognition; it requires understanding both objects and the functions of their detailed parts, particularly in multi-target scenarios. For example, when instructing a robot to \textit{turn on the TV"}, there could be various ways to accomplish this command. Recognizing multiple objects capable of turning on the TV, such as the TV itself or a remote control (multi-target), provides more flexible options and aids in finding the optimized scenario. Furthermore, understanding specific parts of these objects, like the TV's button or the remote's button (part-level), is important for completing the action. Unfortunately, current reasoning segmentation datasets predominantly focus on a single target object-level reasoning, which limits the detailed recognition of an object's parts in multi-target contexts. To address this gap, we construct a large-scale dataset called Multi-target and Multi-granularity Reasoning (MMR). MMR comprises 194K complex and implicit instructions that consider multi-target, object-level, and part-level aspects, based on pre-existing image-mask sets. This dataset supports diverse and context-aware interactions by hierarchically providing object and part information. Moreover, we propose a straightforward yet effective framework for multi-target, object-level, and part-level reasoning segmentation. Experimental results on MMR show that the proposed method can reason effectively in multi-target and multi-granularity scenarios, while the existing reasoning segmentation model still has room for improvement.
- Abstract(参考訳): 視覚モデルと大規模言語モデルの融合は、ユーザ対話型視覚言語タスクにおける新たな可能性の先駆けとなっている。
注目すべき応用はセグメンテーションであり、モデルが人間の指示で暗黙の意味を解釈することでピクセルレベルのセグメンテーションマスクを生成する。
しかし、シームレスな人間とAIの相互作用は、単にオブジェクトレベルの認識以上のものを必要とします。
例えば、‘textit{turn on the TV” にロボットを指示する場合、このコマンドを達成するにはさまざまな方法がある。
テレビそのものやリモコン(マルチターゲット)など、テレビをオンにできる複数のオブジェクトを認識することで、より柔軟な選択肢が提供され、最適化されたシナリオを見つけるのに役立つ。
さらに、これらのオブジェクトの特定の部分、例えばテレビのボタンやリモコンのボタン(部分レベル)を理解することは、アクションを完了させる上で重要である。
残念なことに、現在の推論セグメンテーションデータセットは、主に単一のターゲットオブジェクトレベルの推論に焦点を当てており、これはマルチターゲットコンテキストにおけるオブジェクトの部分の詳細な認識を制限する。
このギャップに対処するため,MMR(Multi-target and Multi-granularity Reasoning)と呼ばれる大規模データセットを構築した。
MMRは、既存のイメージマスクセットに基づいて、マルチターゲット、オブジェクトレベル、および部分レベルアスペクトを考慮した194Kの複雑な暗黙的な命令で構成されている。
このデータセットは、オブジェクトとパーツ情報を階層的に提供することにより、多様なコンテキスト対応のインタラクションをサポートする。
さらに,多目的,オブジェクトレベル,部分レベルの推論セグメンテーションのための,単純かつ効果的なフレームワークを提案する。
MMR実験の結果,提案手法は,既存の推論セグメンテーションモデルにはまだ改善の余地があるものの,マルチターゲットおよびマルチグラニュラリティシナリオにおいて効果的に推論可能であることが示された。
関連論文リスト
- CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,画像間の共通部分と一意部分の識別と分割を目的とした,部分中心のセマンティック・セマンティック・セマンティック・セグメンテーションの新たな課題を紹介する。
画像間で複数のマスクを分割・推論できる最初のLVLMであるCALICOについて述べる。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
本稿では、何千もの挑戦的なビデオを含む新しいデータセットViCaSを紹介する。
本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文 参考訳(メタデータ) (2024-12-12T23:10:54Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。