論文の概要: MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking
- arxiv url: http://arxiv.org/abs/2504.06863v1
- Date: Wed, 09 Apr 2025 13:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 17:24:51.289255
- Title: MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking
- Title(参考訳): MovSAM:ディープシンキングに基づくシングルイメージ移動オブジェクトセグメンテーションフレームワーク
- Authors: Chang Nie, Yiqing Xu, Guangming Wang, Zhe Liu, Yanzi Miao, Hesheng Wang,
- Abstract要約: 単一画像移動オブジェクトセグメンテーションのための最初のフレームワークであるMovSAMを提案する。
MovSAM は Chain-of-Thought (CoT) で拡張された Multimodal Large Language Model (MLLM) を利用して、動くオブジェクトを検索する。
これらのプロンプトは、SAM(Segment Anything Model)とVLM(Vision-Language Model)の視覚的特徴と相互に融合する。
MovSAMは、公開MOSベンチマークで最先端のパフォーマンスを達成し、J&Fで92.5%に達した。
- 参考スコア(独自算出の注目度): 19.024705487189262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moving object segmentation plays a vital role in understanding dynamic visual environments. While existing methods rely on multi-frame image sequences to identify moving objects, single-image MOS is critical for applications like motion intention prediction and handling camera frame drops. However, segmenting moving objects from a single image remains challenging for existing methods due to the absence of temporal cues. To address this gap, we propose MovSAM, the first framework for single-image moving object segmentation. MovSAM leverages a Multimodal Large Language Model (MLLM) enhanced with Chain-of-Thought (CoT) prompting to search the moving object and generate text prompts based on deep thinking for segmentation. These prompts are cross-fused with visual features from the Segment Anything Model (SAM) and a Vision-Language Model (VLM), enabling logic-driven moving object segmentation. The segmentation results then undergo a deep thinking refinement loop, allowing MovSAM to iteratively improve its understanding of the scene context and inter-object relationships with logical reasoning. This innovative approach enables MovSAM to segment moving objects in single images by considering scene understanding. We implement MovSAM in the real world to validate its practical application and effectiveness for autonomous driving scenarios where the multi-frame methods fail. Furthermore, despite the inherent advantage of multi-frame methods in utilizing temporal information, MovSAM achieves state-of-the-art performance across public MOS benchmarks, reaching 92.5\% on J\&F. Our implementation will be available at https://github.com/IRMVLab/MovSAM.
- Abstract(参考訳): 移動物体のセグメンテーションは、動的視覚環境を理解する上で重要な役割を果たす。
既存手法では移動物体の識別にマルチフレーム画像シーケンスを頼っているが、動きの意図予測やカメラフレームドロップの処理といったアプリケーションには単一イメージのMOSが不可欠である。
しかし,1つの画像からの移動物体の分割は時間的手がかりがないため,既存の手法では依然として困難である。
このギャップに対処するため、単一イメージ移動オブジェクトセグメンテーションのための最初のフレームワークであるMovSAMを提案する。
MovSAM は Chain-of-Thought (CoT) で強化された Multimodal Large Language Model (MLLM) を利用して、移動対象を検索し、セグメンテーションのための深い思考に基づいてテキストプロンプトを生成する。
これらのプロンプトは、SAM(Segment Anything Model)とVLM(Vision-Language Model)の視覚的特徴と混同され、ロジック駆動の移動オブジェクトセグメンテーションを可能にする。
セグメンテーションの結果は、深い思考改善ループを経て、MovSAMはシーンコンテキストの理解を反復的に改善し、論理的推論とオブジェクト間の関係を形作る。
この革新的なアプローチにより、MovSAMはシーン理解を考慮し、移動物体を単一の画像にセグメント化することができる。
我々は,MovSAMを実世界で実装し,マルチフレーム方式が失敗する自律走行シナリオに対して,その実用的応用と有効性を検証する。
さらに、時間的情報を利用するマルチフレーム手法の固有の利点にもかかわらず、MovSAMは公開MOSベンチマーク全体で最先端のパフォーマンスを達成し、J\&Fで92.5\%に達する。
私たちの実装はhttps://github.com/IRMVLab/MovSAM.comで公開されます。
関連論文リスト
- DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models [0.6149772262764599]
本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T13:29:41Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。