論文の概要: MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking
- arxiv url: http://arxiv.org/abs/2504.06863v1
- Date: Wed, 09 Apr 2025 13:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:10.557719
- Title: MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking
- Title(参考訳): MovSAM:ディープシンキングに基づくシングルイメージ移動オブジェクトセグメンテーションフレームワーク
- Authors: Chang Nie, Yiqing Xu, Guangming Wang, Zhe Liu, Yanzi Miao, Hesheng Wang,
- Abstract要約: 単一画像移動オブジェクトセグメンテーションのための最初のフレームワークであるMovSAMを提案する。
MovSAM は Chain-of-Thought (CoT) で拡張された Multimodal Large Language Model (MLLM) を利用して、動くオブジェクトを検索する。
これらのプロンプトは、SAM(Segment Anything Model)とVLM(Vision-Language Model)の視覚的特徴と相互に融合する。
MovSAMは、公開MOSベンチマークで最先端のパフォーマンスを達成し、J&Fで92.5%に達した。
- 参考スコア(独自算出の注目度): 19.024705487189262
- License:
- Abstract: Moving object segmentation plays a vital role in understanding dynamic visual environments. While existing methods rely on multi-frame image sequences to identify moving objects, single-image MOS is critical for applications like motion intention prediction and handling camera frame drops. However, segmenting moving objects from a single image remains challenging for existing methods due to the absence of temporal cues. To address this gap, we propose MovSAM, the first framework for single-image moving object segmentation. MovSAM leverages a Multimodal Large Language Model (MLLM) enhanced with Chain-of-Thought (CoT) prompting to search the moving object and generate text prompts based on deep thinking for segmentation. These prompts are cross-fused with visual features from the Segment Anything Model (SAM) and a Vision-Language Model (VLM), enabling logic-driven moving object segmentation. The segmentation results then undergo a deep thinking refinement loop, allowing MovSAM to iteratively improve its understanding of the scene context and inter-object relationships with logical reasoning. This innovative approach enables MovSAM to segment moving objects in single images by considering scene understanding. We implement MovSAM in the real world to validate its practical application and effectiveness for autonomous driving scenarios where the multi-frame methods fail. Furthermore, despite the inherent advantage of multi-frame methods in utilizing temporal information, MovSAM achieves state-of-the-art performance across public MOS benchmarks, reaching 92.5\% on J\&F. Our implementation will be available at https://github.com/IRMVLab/MovSAM.
- Abstract(参考訳): 移動物体のセグメンテーションは、動的視覚環境を理解する上で重要な役割を果たす。
既存手法では移動物体の識別にマルチフレーム画像シーケンスを頼っているが、動きの意図予測やカメラフレームドロップの処理といったアプリケーションには単一イメージのMOSが不可欠である。
しかし,1つの画像からの移動物体の分割は時間的手がかりがないため,既存の手法では依然として困難である。
このギャップに対処するため、単一イメージ移動オブジェクトセグメンテーションのための最初のフレームワークであるMovSAMを提案する。
MovSAM は Chain-of-Thought (CoT) で強化された Multimodal Large Language Model (MLLM) を利用して、移動対象を検索し、セグメンテーションのための深い思考に基づいてテキストプロンプトを生成する。
これらのプロンプトは、SAM(Segment Anything Model)とVLM(Vision-Language Model)の視覚的特徴と混同され、ロジック駆動の移動オブジェクトセグメンテーションを可能にする。
セグメンテーションの結果は、深い思考改善ループを経て、MovSAMはシーンコンテキストの理解を反復的に改善し、論理的推論とオブジェクト間の関係を形作る。
この革新的なアプローチにより、MovSAMはシーン理解を考慮し、移動物体を単一の画像にセグメント化することができる。
我々は,MovSAMを実世界で実装し,マルチフレーム方式が失敗する自律走行シナリオに対して,その実用的応用と有効性を検証する。
さらに、時間的情報を利用するマルチフレーム手法の固有の利点にもかかわらず、MovSAMは公開MOSベンチマーク全体で最先端のパフォーマンスを達成し、J\&Fで92.5\%に達する。
私たちの実装はhttps://github.com/IRMVLab/MovSAM.comで公開されます。
関連論文リスト
- Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models [0.6149772262764599]
本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T13:29:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。