論文の概要: Pixel-Level Reasoning Segmentation via Multi-turn Conversations
- arxiv url: http://arxiv.org/abs/2502.09447v1
- Date: Thu, 13 Feb 2025 16:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:22.681817
- Title: Pixel-Level Reasoning Segmentation via Multi-turn Conversations
- Title(参考訳): マルチターン会話による画素レベル推論セグメンテーション
- Authors: Dexian Cai, Xiaocui Yang, Yongkang Liu, Daling Wang, Shi Feng, Yifei Zhang, Soujanya Poria,
- Abstract要約: マルチターン会話に基づく新しいタスクであるPixel-level Reasoning(Pixel-level RS)を導入し、細粒なセグメンテーションのためのマルチターンインタラクションを通じてユーザ意図の進化を追跡する。
我々は、画素レベルのセグメンテーションターゲットを持つ8.3kマルチターン会話シナリオから24kの発話を含む、マルチTurn Conversations (PRIST)に基づくPixelレベルのReasonIngデータセットを構築した。
- 参考スコア(独自算出の注目度): 34.980131309305264
- License:
- Abstract: Existing visual perception systems focus on region-level segmentation in single-turn dialogues, relying on complex and explicit query instructions. Such systems cannot reason at the pixel level and comprehend dynamic user intent that changes over interaction. Our work tackles this issue by introducing a novel task, Pixel-level Reasoning Segmentation (Pixel-level RS) based on multi-turn conversations, tracking evolving user intent via multi-turn interactions for fine-grained segmentation. To establish a benchmark for this novel task, we build a Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST), comprising 24k utterances from 8.3k multi-turn conversational scenarios with segmentation targets. Building on PRIST, we further propose MIRAS, a Multi-turn Interactive ReAsoning Segmentation framework, integrates pixel-level segmentation with robust multi-turn conversation understanding, generating pixel-grounded explanations aligned with user intent. The PRIST dataset and MIRSA framework fill the gap in pixel-level reasoning segmentation. Experimental results on the PRIST dataset demonstrate that our method outperforms current segmentation-specific baselines in terms of segmentation and LLM-based reasoning metrics. The code and data are available at: https://github.com/ccccai239/PixelRIST.
- Abstract(参考訳): 既存の視覚認識システムは、複雑で明示的なクエリ命令に依存する単一ターン対話における領域レベルのセグメンテーションに焦点を当てている。
このようなシステムはピクセルレベルでは推論できず、インタラクションによって変化する動的なユーザ意図を理解することはできない。
我々の研究は、多ターン会話に基づく新しいタスクであるPixelレベル推論(PixelレベルRS)を導入し、細粒なセグメンテーションのためのマルチターンインタラクションを通じてユーザ意図の進化を追跡することでこの問題に対処している。
この新しいタスクのベンチマークを確立するために、セグメント化ターゲットを持つ8.3kのマルチターン会話シナリオから24kの発話を含む、マルチTurn Conversations (PRIST) に基づくPixelレベルReasonIngセグセグセグセグメンテーションデータセットを構築した。
PRISTに基づいて,マルチターン対話型推論セグメンテーションフレームワークであるMIRASを提案する。
PRISTデータセットとMIRSAフレームワークは、ピクセルレベルの推論セグメンテーションのギャップを埋める。
PRISTデータセットを用いた実験結果から,本手法はセグメント化とLCMに基づく推論の指標から,現在のセグメンテーション固有のベースラインよりも優れていることが示された。
コードとデータは、https://github.com/ccccai239/PixelRIST.comで入手できる。
関連論文リスト
- GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing [22.729750410621826]
GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
論文 参考訳(メタデータ) (2025-01-12T14:45:27Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,画像間の共通部分と一意部分の識別と分割を目的とした,部分中心のセマンティック・セマンティック・セマンティック・セグメンテーションの新たな課題を紹介する。
画像間で複数のマスクを分割・推論できる最初のLVLMであるCALICOについて述べる。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
本稿では、何千もの挑戦的なビデオを含む新しいデータセットViCaSを紹介する。
本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文 参考訳(メタデータ) (2024-12-12T23:10:54Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Multi-Stage Fusion for One-Click Segmentation [20.00726292545008]
対話型セグメンテーションのための多段階ガイダンスフレームワークを提案する。
提案フレームワークは,早期融合フレームワークと比較してパラメータ数の増加は無視できない。
論文 参考訳(メタデータ) (2020-10-19T17:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。