論文の概要: X2SAM: Any Segmentation in Images and Videos
- arxiv url: http://arxiv.org/abs/2605.00891v1
- Date: Mon, 27 Apr 2026 16:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.454206
- Title: X2SAM: Any Segmentation in Images and Videos
- Title(参考訳): X2SAM:画像とビデオのセグメンテーション
- Authors: Hao Wang, Limeng Qiao, Chi Zhang, Lin Ma, Guanglu Wan, Xiangyuan Lan, Xiaodan Liang,
- Abstract要約: 画像からビデオまで任意のセグメンテーション機能を拡張した統合セグメンテーションMLLMであるX2SAMを紹介する。
V-VGD(V-VGD)セグメンテーションベンチマークを導入し、インタラクティブな視覚的プロンプトからオブジェクトトラックをビデオに分割できるかどうかを評価する。
X2SAMは、強力なビデオセグメンテーションのパフォーマンスを提供し、データセットに競争力を持ち、一般的な画像とビデオチャットの能力を保っている。
- 参考スコア(独自算出の注目度): 62.84804286933252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は画像レベルの視覚的理解と推論を強く示しているが、画像とビデオの両方にわたるピクセルレベルの認識は限られている。
SAMシリーズのような基礎セグメンテーションモデルは高品質なマスクを生成するが、それらは低レベルの視覚的プロンプトに依存しており、複雑な会話命令をネイティブに解釈することはできない。
既存のセグメンテーションMLLMは、このギャップを狭めるが、通常、画像またはビデオに特化しており、テキストと視覚の両方のプロンプトを1つのインターフェイスでサポートすることは滅多にない。
画像からビデオまで任意のセグメンテーション機能を拡張した統合セグメンテーションMLLMであるX2SAMを紹介する。
会話の指示と視覚的プロンプトを与えられたX2SAMは、一時的に一貫したビデオマスク生成のためのガイド付き視覚機能を格納するマスクメモリモジュールとLLMを結合する。
同じ定式化は、画像やビデオの入力に対して、汎用的でオープンな語彙、参照、推論、接地された会話生成、対話的、視覚的な接地的なセグメンテーションをサポートする。
さらに,V-VGD(V-VGD)セグメンテーションベンチマークを導入し,インタラクティブな視覚的プロンプトから映像中のオブジェクトトラックをセグメンテーションできるかどうかを評価する。
ヘテロジニアスな画像とビデオデータセットを統合した共同トレーニング戦略により、X2SAMは強力なビデオセグメンテーション性能を提供し、画像セグメンテーションのベンチマークで競争力を維持し、一般的な画像とビデオチャットの能力を保っている。
関連論文リスト
- ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [126.02606196101259]
Sa2VAは、画像とビデオの両方の密集した理解のための、包括的で統一されたモデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
Sa2VAはQwen-VLやIntern-VLなど、様々なVLMに容易に拡張できる。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models [37.43195217391341]
本稿では,画像レベルと映像レベルのセグメンテーションと推論セグメンテーションの融合を,IVS(Instructed Visual)として定義する。
具体的には、参照フレームから時間的およびオブジェクト情報を抽出し、包括的な映像理解を容易にするために、オブジェクト認識ビデオ知覚器を用いる。
マルチタスクとエンドツーエンドのトレーニングを活用することで、InstructSegは、さまざまな画像およびビデオセグメンテーションタスクにまたがる優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-18T16:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。